6 분 소요

[1] 분석기획 방향성 도출

1. 분석기획

  • 과제 정의, 결과 도출을 위한 관리 방안을 기획
  • 분석 대상 및 분석 방법에 따른 분류

2. 분석 방법론

  • 상세한 절차, 방법, 도구와 기법, 템플릿과 산출물이 필요함
  • 경험과 감에서 데이터 기반 의사결정으로 변화
  • 장애요소
    • 고정관념, 편향된 생각, 프레이밍 효과
  • 방법론 생성 과정
  • 암묵지 -(형식화)-> 형식지 -(체계화)-> 방법론 -(내재화)-> 암묵지

3. 방법론 모델

  • 폭포수 모델: 순차적 단계 진행, 이전 단계 완료시 넘어감
  • 프로토타입: 선개발 후 유지보수, 폭포수 모델 단점 보완
  • 나선형: 반복을 통한 개선, 처음 시도하는 프로젝트에는 유리하나 관리가 안될시 난이도 급상승

4. KDD 방법론

  • 데이터로부터 통계 패턴, 지식을 찾을 수 있도록 정리한 데이터 마이닝 프로세스
  • 절차
    1. 데이터 셋 선택: 대상 비즈니스 도메인 이해, 목표 설정
    2. 전처리: 추가 데이터 필요시 데이터 셋 선택부터 재실행
    3. 데이터 변환: 데이터 차원을 축소 -> 효율적, Train/validation split
    4. 데이터 마이닝: 분석 기법 및 알고리즘 선택, 앞선 단계 추가실행하여 최적 결과 도출
    5. 평가: 결과 해석 및 평가, 분석의 목적성과 일치성 확인

5. CRISP-DM 방법론

  • 계층적 프로세스 모델로 4레벨 구성
    1. 최상위 레벨은 여러 단계(Phase)로 구성
    2. 각 단계는 일반화 테스크를 포함
    3. 구체적 수행 레벨, 세분화 테스크로 구성
    4. 프로세스 실행, 데이터 마이닝을 위한 구체적 실행
  • CRISP-DM 프로세스는 6단계 구성, 단방향이 아닌 단계간 피드백을 통해 완성도를 높임
    1. 업무 이해
      • 목적과 요구사항을 이해하기 위한 단계
      • 문제 정의 및 계획 수립
    2. 데이터 이해
      • 데이터 수집 및 속성 이해
      • 품질 검증 및 인사이트 도출
    3. 데이터 준비
      • 분석을 위한 데이터 편성
    4. 모델링
      • 알고리즘 선택 및 파라미터 최적화 - 모델 평가
      • 과적합 문제 확인
    5. 평가
      • 프로젝트 목적에 부합하는지 확인
      • 모델링 과정 및 적용성 평가
    6. 전개(배포)
      • 모델을 실 업무에 적용하기 위한 계획 수립
      • 모니터링 유지보수 계획 수립

[2] 빅데이터 분석 방법론

1. 빅데이터 분석의 계층적 프로세스

  1. 단계
    • 프로세스 그룹을 통해 완성된 단계별 산출물을 생성
    • 각 단계는 Baseline으로 설정되어 관리
    • 버전관리
  2. 테스크
    • 각 단계는 여러 개의 태스크로 구성
    • 물리적 논리적 단위로 품질 검토의 항목이 될 수있음
  3. 스텝
    • WBS, 워크 패키지

2. 빅데이터 분석 방법론 5단계

  1. 분석기획: 비즈니스 도메인과 문제점을 인식하고 분석 계획 및 프로젝트 수행 계획 수립
    • 비즈니스 이해 및 범위 설정 -> 프로젝트 범위 정의서(SoW)
    • 프로젝트 정의 및 계획 수립 -> 모델 운영 이미지 설계서, 모델 평가 기준, wbs
    • 프로젝트 위험 계획 수립
  2. 데이터 준비: 데이터를 정의하고 준비하는 단계
    • 필요데이터 정의 -> 데이터 정의서
    • 데이터 스토어 설계 -> 스토어 설계서, 매핑 정의서
    • 데이터 수집 및 정합성 검정 -> 정합성 보고서
  3. 데이터 분석: 원천 데이터를 분석용 데이터 셋으로 편성 및 분석, 데이터 확보가 필요할 시 데이터 분석으로 피드백
    • 분석용 데이터 준비
    • 텍스트 분석
    • 탐색적 분석
    • 모델링 -> 모델링 결과 보고서, 알고리즘 설명서
    • 모델링 평가 및 검증 -> 모델 평가 보고서, 모델 검증 보고서
    • 모델 적용 및 운영방안 수립 -> 모니터링 방안
  4. 시스템 구현: 모델 도출 및 이를 운영 시스템에 적용 혹은 프로토 타입 개발
    • 설계 및 구현
    • 시스템 테스트 및 운영 -> 운영자 매뉴얼
  5. 평가 및 전개: 시스템 구현 후 성과를 평가하고 정리
    • 모델 발전 계획 수립 -> 모델 발전 계획서
    • 프로젝트 평가 및 보고 -> 성과 평가서

[3] 분석 과제 발굴 방법론

  • 풀어야할 문제를 데이터 분석으로 변환하여 과제 정의서 도출
  • 상향, 하향 두 접근 방식이 상호보완관계 -> 최적 의사 결정

1. 하향식 접근 방법

  • 현황분석을 통해 분석 과제를 도출함
  • 문제 탐색 > 문제 정의 > 해결방안 탐색 > 타당성 검토
  1. 문제 탐색
    • 문제를 해결함으로 발생하는 가치에 중점
    • 비즈니스 모델 기반 문제 탐색: 비즈니스 모델 캔버스의 9가지 블록을 5가지로 단순화
      • 업무: 제품, 서비스 생산을 위한 내부 프로세스 관련 주제 도출
      • 제품: 제픔, 서비스 품질 개선
      • 고객: 고객에게 제공하는 채널 관점 주제 도출 - 채널에서 AS는 제공하지 않음
      • 규제와 감사: 규제 및 보안의 관점
      • 지원 인프라: 운영 인력 관점
    • 분석 기획 발굴 범위 확장
      • 거시적 관점: 사회, 기술, 경제, 환경, 정치
      • 경쟁자 확대: 대체재, 경쟁자, 신규 진입자를 통해 위협 상황 분석
      • 시장 니즈 파악: 고객, 채널, 영향자(주주, 투자자)
      • 역량의 재해석: 내부 역량, 파트너 및 네트워크 - 보유 자산의 부가가치 창출
      • 외부 참조 모델: 유사 동종 사례 벤치마킹
  2. 문제 정의
    • 식별된 비즈니스 문제를 데이터 관점으로 변환 - 재정의
  3. 해결 방안 탐색
    • 데이터 분석 과제를 해결하기 위한 방안 모색 - 사전검토
  4. 타당성 검토
    • 경제적 타당성: 비용대비 편익
    • 데이터 및 기술적 타당성

2. 상향식 접근법

  • 데이터로부터 분석을 통해 인사이트를 얻음
  • 하향식 접근은 최근 문제 트렌드에 적합하지 않을 수 있음
    • 디자인 사고로 개선 (상향식 - 발산, 하향식 수렴)
  • 데이터 자체로부터 의미를 끌어냄
  • 지도, 비지도, 통계분석

3. 프로토 타이핑 접근법 (상향식)

  • 요구사항 및 데이터 파악이 어려울 때, 선개발 후 유지보수 -> 반복적인 개선
  • 신속하게 모델을 제공하고 운영중 문제를 구체화 시킴
  • 데이터 및 문제가 이미 정의되어 있다면 하향식 접근법
  • 필요성
    • 문제에 대한 인식 수준: 프로토 타입을 통해 문제 이해 및 구체화
    • 필요데이터 불확실성: 현업과 분석가의 협의를 통해 리스크 감소
    • 데이터 사용 목적의 가변성: 데이터의 가치는 가변적이기에 프로토 타입을 통해 가치재정의 및 목적 범위 확대

[4] 분석 프로젝트 관리

1. 분석 프로젝트 관리 5가지 방법론

  1. Data size: 데이터 양을 고려한 방안 수립
  2. Data complexity: 데이터에 적용할 수 있는 모델 선정 고려
  3. Speed: 시나리오 측면에서의 속도, 모델 성능을 고려
  4. Analytic Complexity: 해석이 가능하면서 정확도가 높은 모델 선정
  5. Accuracy & Precision: 둘 다 고려되어야 함

2. 분석 프로젝트 관리 포인트

  • 데이터 수집에 대한 규제는 빡셀 필요 없음
  • KSA ISO21500 참조
  • 모델 평가는 SPICE로 수행
  • 분석 과제중 발생된 시사점을 풀이라고 하며 확정된 문제는 풀로 관리하지 않음

[5] 분석 마스터 플랜

1. 수행과제 도출 및 우선순위 평가

  • 분석과제 도출 > 우선순위 평가 > 우선순위 정렬

2. ROI 관점에서 빅데이터 핵심 특징

  1. 투자 비용 요소 (3V)
    • 크기: 데이터 저장, 처리를 위한 인프라 투자
    • 다양성: 데이터 수집을 위한 투자
    • 속도: 데이터 처리 기술 투자
  2. 비즈니스 효과 요소 (4V)
    • 가치: 기업 데이터 분석을 통해 달성하고자 하는 목표

3. 데이터 분석 우선순위 평가 요소

  1. 시급성 (4V): 전략적 중요도 및 KPI 고려
  2. 난이도 (3V): 현재 수준을 고려함
  3. 사분면 분석을 통해 고려
    • 난이도가 낮고 시급성이 낮은 부분부터 해결함

4. 이행 계획 수립

  1. 로드맵 수립
    • 추진 단계 > 단계별 추진 목표 > 추진 과제
    • 사분면 분석을 통해 우선순위 결정
  2. 세부 이행 계획 수립
    • 폭포수 단계 보단 반복적 정련과정을 선호
    • 모든 단계를 반복하지 않고 단계별 반복 수행
      • 모델링과정은 반복적으로 수행하는 혼합형 사용
    • 프로젝트 세부 일정도 분석 체계를 고려하여 작성해야 함

[6] 분석 거버넌스 체계 수립

1. 거버넌스 체계

  • 기업 데이터 활용을 위한 체계적 관리
  • 구성요소
    • Data > 분석교육/마인드 육성 > 분석 및 관리 조직 > 과제기획 및 운영 프로세스 > 분석관련시스템

2. 분석 준비도

기업 데이터 분석 도입 수준을 파악하기 위한 진단 방법으로 아래는 진단 과정임

  1. 분석 업무 파악
    • 발생한 사실/ 예측/ 시뮬레이션/ 최적화 분석 업무
    • 분석 업무 정기적 개선
  2. 인력 및 조직
    • 분석 전문가 직무 및 교육 훈련 프로그램
    • 관리자들의 기본적 분석 능력
    • 전사 분석업무 총괄 조직 존재
    • 경영진의 분석 업무 이해 능력
  3. 분석 기법
    • 업무별 적합한 분석 기법 사용
    • 분석 업무 도입 방법론/ 라이브러리/ 효과성 평가/ 정기적 개선
  4. 분석 데이터
    • 분석 업무를 위한 데이터 충분성/ 신뢰성/ 적시성
    • 비구조적 데이터 관리
    • 외부 데이터 활용 체계
    • 기준 데이터 관리 (MDM)
  5. 분석 문화
    • 사실에 근거한 의사 결정
    • 관리자의 데이터 중시 정도
    • 회의 등에서 데이터 활용 상황
    • 경영진의 직관 vs 데이터 기반의 의사 결정
    • 데이터 공유 및 협업 문화
  6. IT 인프라
    • 운영 시스템 통합
    • EAI, ETL 등 데이터 유통 체계
    • 분석 전용 서버 및 스토리지
    • 빅데이터/ 통계/ 시각화 분석 환경

3. 분석 성숙도

  • 조직의 성숙도는 CMMI 모델로 평가
  • 진단분류
    1. 비즈니스
    2. 조직, 역량
    3. IT
  • 수준 분류
    1. 도입단계: 분석 환경 및 시스템이 있음
    2. 활용단계: 결과를 실업무에 적용
    3. 확산단계; 전사차원 공유
    4. 최적화 단계: 분석을 통해 혁신

4. 데이터 거버넌스

  • 전사차원 모든 데이터에 대해 표준화된 관리 체계 수립 및 운영 프레임워크 구축
  • 구성요소
    1. 원칙: 데이터 유지, 관리 지치 ㅇ및 가이드
    2. 조직: 관리조직 (DA, DBA)
    3. 프로세스: 작업 모니터링 활동
  • 체계
    1. 데이터 표준화: 표준용어 설정, 명명규칙 수립, 메타데이터 구축, 데이터 사전 구축
    2. 데이터 관리 체계: 메타데이터, 데이터 관리체계 수립
    3. 데이터 저장소 관리: 전사 차원 저장소, 영향도 평가
    4. 표준화 활동: 주기적 모니터링 및 실용성

5. 데이터 조직 및 인력 방안

  1. 집중구조
    • 전사 분석 업무를 별도의 조직에서 전담
    • 분석조직이 우선순위를 결정
    • 현업과 분석업의 이중화/ 이원화
  2. 기능구조
    • 일반적 분석 수행 구조
    • 별도 분석 조직이 없고 해당 부서에서 분석 수행
    • 전사적 핵심분석이 어려우며 과거 실적에 국한된 분석
  3. 분산구조
    • 분석 조직 인력을 현업 부서로 배치
    • 전사 차원의 우선순위 수행
    • 분석 결과에 따른 신속한 액션 가능
    • 베스트 프랙티스 공유
    • 업무 과다 이원화 가능성 존재

5. Self Service Analystic

  • BI, Ad hoc Reprot, OLAP, ML 등의 기능 포함
  • Reference method의 작성 및 공유, 표준 데이터 활용, 도구 사용의 지속적 교육 필요
  • 분산 처리 지원하지 않음

댓글남기기