ADP 필기 3장 데이터 분석 기획
[1] 분석기획 방향성 도출
1. 분석기획
- 과제 정의, 결과 도출을 위한 관리 방안을 기획
- 분석 대상 및 분석 방법에 따른 분류
2. 분석 방법론
- 상세한 절차, 방법, 도구와 기법, 템플릿과 산출물이 필요함
- 경험과 감에서 데이터 기반 의사결정으로 변화
- 장애요소
- 고정관념, 편향된 생각, 프레이밍 효과
- 방법론 생성 과정
- 암묵지 -(형식화)-> 형식지 -(체계화)-> 방법론 -(내재화)-> 암묵지
3. 방법론 모델
- 폭포수 모델: 순차적 단계 진행, 이전 단계 완료시 넘어감
- 프로토타입: 선개발 후 유지보수, 폭포수 모델 단점 보완
- 나선형: 반복을 통한 개선, 처음 시도하는 프로젝트에는 유리하나 관리가 안될시 난이도 급상승
4. KDD 방법론
- 데이터로부터 통계 패턴, 지식을 찾을 수 있도록 정리한 데이터 마이닝 프로세스
- 절차
- 데이터 셋 선택: 대상 비즈니스 도메인 이해, 목표 설정
- 전처리: 추가 데이터 필요시 데이터 셋 선택부터 재실행
- 데이터 변환: 데이터 차원을 축소 -> 효율적, Train/validation split
- 데이터 마이닝: 분석 기법 및 알고리즘 선택, 앞선 단계 추가실행하여 최적 결과 도출
- 평가: 결과 해석 및 평가, 분석의 목적성과 일치성 확인
5. CRISP-DM 방법론
- 계층적 프로세스 모델로 4레벨 구성
- 최상위 레벨은 여러 단계(Phase)로 구성
- 각 단계는 일반화 테스크를 포함
- 구체적 수행 레벨, 세분화 테스크로 구성
- 프로세스 실행, 데이터 마이닝을 위한 구체적 실행
- CRISP-DM 프로세스는 6단계 구성, 단방향이 아닌 단계간 피드백을 통해 완성도를 높임
- 업무 이해
- 목적과 요구사항을 이해하기 위한 단계
- 문제 정의 및 계획 수립
- 데이터 이해
- 데이터 수집 및 속성 이해
- 품질 검증 및 인사이트 도출
- 데이터 준비
- 분석을 위한 데이터 편성
- 모델링
- 알고리즘 선택 및 파라미터 최적화 - 모델 평가
- 과적합 문제 확인
- 평가
- 프로젝트 목적에 부합하는지 확인
- 모델링 과정 및 적용성 평가
- 전개(배포)
- 모델을 실 업무에 적용하기 위한 계획 수립
- 모니터링 유지보수 계획 수립
- 업무 이해
[2] 빅데이터 분석 방법론
1. 빅데이터 분석의 계층적 프로세스
- 단계
- 프로세스 그룹을 통해 완성된 단계별 산출물을 생성
- 각 단계는 Baseline으로 설정되어 관리
- 버전관리
- 테스크
- 각 단계는 여러 개의 태스크로 구성
- 물리적 논리적 단위로 품질 검토의 항목이 될 수있음
- 스텝
- WBS, 워크 패키지
2. 빅데이터 분석 방법론 5단계
- 분석기획: 비즈니스 도메인과 문제점을 인식하고 분석 계획 및 프로젝트 수행 계획 수립
- 비즈니스 이해 및 범위 설정 -> 프로젝트 범위 정의서(SoW)
- 프로젝트 정의 및 계획 수립 -> 모델 운영 이미지 설계서, 모델 평가 기준, wbs
- 프로젝트 위험 계획 수립
- 데이터 준비: 데이터를 정의하고 준비하는 단계
- 필요데이터 정의 -> 데이터 정의서
- 데이터 스토어 설계 -> 스토어 설계서, 매핑 정의서
- 데이터 수집 및 정합성 검정 -> 정합성 보고서
- 데이터 분석: 원천 데이터를 분석용 데이터 셋으로 편성 및 분석, 데이터 확보가 필요할 시 데이터 분석으로 피드백
- 분석용 데이터 준비
- 텍스트 분석
- 탐색적 분석
- 모델링 -> 모델링 결과 보고서, 알고리즘 설명서
- 모델링 평가 및 검증 -> 모델 평가 보고서, 모델 검증 보고서
- 모델 적용 및 운영방안 수립 -> 모니터링 방안
- 시스템 구현: 모델 도출 및 이를 운영 시스템에 적용 혹은 프로토 타입 개발
- 설계 및 구현
- 시스템 테스트 및 운영 -> 운영자 매뉴얼
- 평가 및 전개: 시스템 구현 후 성과를 평가하고 정리
- 모델 발전 계획 수립 -> 모델 발전 계획서
- 프로젝트 평가 및 보고 -> 성과 평가서
[3] 분석 과제 발굴 방법론
- 풀어야할 문제를 데이터 분석으로 변환하여 과제 정의서 도출
- 상향, 하향 두 접근 방식이 상호보완관계 -> 최적 의사 결정
1. 하향식 접근 방법
- 현황분석을 통해 분석 과제를 도출함
- 문제 탐색 > 문제 정의 > 해결방안 탐색 > 타당성 검토
- 문제 탐색
- 문제를 해결함으로 발생하는 가치에 중점
- 비즈니스 모델 기반 문제 탐색: 비즈니스 모델 캔버스의 9가지 블록을 5가지로 단순화
- 업무: 제품, 서비스 생산을 위한 내부 프로세스 관련 주제 도출
- 제품: 제픔, 서비스 품질 개선
- 고객: 고객에게 제공하는 채널 관점 주제 도출 - 채널에서 AS는 제공하지 않음
- 규제와 감사: 규제 및 보안의 관점
- 지원 인프라: 운영 인력 관점
- 분석 기획 발굴 범위 확장
- 거시적 관점: 사회, 기술, 경제, 환경, 정치
- 경쟁자 확대: 대체재, 경쟁자, 신규 진입자를 통해 위협 상황 분석
- 시장 니즈 파악: 고객, 채널, 영향자(주주, 투자자)
- 역량의 재해석: 내부 역량, 파트너 및 네트워크 - 보유 자산의 부가가치 창출
- 외부 참조 모델: 유사 동종 사례 벤치마킹
- 문제 정의
- 식별된 비즈니스 문제를 데이터 관점으로 변환 - 재정의
- 해결 방안 탐색
- 데이터 분석 과제를 해결하기 위한 방안 모색 - 사전검토
- 타당성 검토
- 경제적 타당성: 비용대비 편익
- 데이터 및 기술적 타당성
2. 상향식 접근법
- 데이터로부터 분석을 통해 인사이트를 얻음
- 하향식 접근은 최근 문제 트렌드에 적합하지 않을 수 있음
- 디자인 사고로 개선 (상향식 - 발산, 하향식 수렴)
- 데이터 자체로부터 의미를 끌어냄
- 지도, 비지도, 통계분석
3. 프로토 타이핑 접근법 (상향식)
- 요구사항 및 데이터 파악이 어려울 때, 선개발 후 유지보수 -> 반복적인 개선
- 신속하게 모델을 제공하고 운영중 문제를 구체화 시킴
- 데이터 및 문제가 이미 정의되어 있다면 하향식 접근법
- 필요성
- 문제에 대한 인식 수준: 프로토 타입을 통해 문제 이해 및 구체화
- 필요데이터 불확실성: 현업과 분석가의 협의를 통해 리스크 감소
- 데이터 사용 목적의 가변성: 데이터의 가치는 가변적이기에 프로토 타입을 통해 가치재정의 및 목적 범위 확대
[4] 분석 프로젝트 관리
1. 분석 프로젝트 관리 5가지 방법론
- Data size: 데이터 양을 고려한 방안 수립
- Data complexity: 데이터에 적용할 수 있는 모델 선정 고려
- Speed: 시나리오 측면에서의 속도, 모델 성능을 고려
- Analytic Complexity: 해석이 가능하면서 정확도가 높은 모델 선정
- Accuracy & Precision: 둘 다 고려되어야 함
2. 분석 프로젝트 관리 포인트
- 데이터 수집에 대한 규제는 빡셀 필요 없음
- KSA ISO21500 참조
- 모델 평가는 SPICE로 수행
- 분석 과제중 발생된 시사점을 풀이라고 하며 확정된 문제는 풀로 관리하지 않음
[5] 분석 마스터 플랜
1. 수행과제 도출 및 우선순위 평가
- 분석과제 도출 > 우선순위 평가 > 우선순위 정렬
2. ROI 관점에서 빅데이터 핵심 특징
- 투자 비용 요소 (3V)
- 크기: 데이터 저장, 처리를 위한 인프라 투자
- 다양성: 데이터 수집을 위한 투자
- 속도: 데이터 처리 기술 투자
- 비즈니스 효과 요소 (4V)
- 가치: 기업 데이터 분석을 통해 달성하고자 하는 목표
3. 데이터 분석 우선순위 평가 요소
- 시급성 (4V): 전략적 중요도 및 KPI 고려
- 난이도 (3V): 현재 수준을 고려함
- 사분면 분석을 통해 고려
- 난이도가 낮고 시급성이 낮은 부분부터 해결함
4. 이행 계획 수립
- 로드맵 수립
- 추진 단계 > 단계별 추진 목표 > 추진 과제
- 사분면 분석을 통해 우선순위 결정
- 세부 이행 계획 수립
- 폭포수 단계 보단 반복적 정련과정을 선호
- 모든 단계를 반복하지 않고 단계별 반복 수행
- 모델링과정은 반복적으로 수행하는 혼합형 사용
- 프로젝트 세부 일정도 분석 체계를 고려하여 작성해야 함
[6] 분석 거버넌스 체계 수립
1. 거버넌스 체계
- 기업 데이터 활용을 위한 체계적 관리
- 구성요소
- Data > 분석교육/마인드 육성 > 분석 및 관리 조직 > 과제기획 및 운영 프로세스 > 분석관련시스템
2. 분석 준비도
기업 데이터 분석 도입 수준을 파악하기 위한 진단 방법으로 아래는 진단 과정임
- 분석 업무 파악
- 발생한 사실/ 예측/ 시뮬레이션/ 최적화 분석 업무
- 분석 업무 정기적 개선
- 인력 및 조직
- 분석 전문가 직무 및 교육 훈련 프로그램
- 관리자들의 기본적 분석 능력
- 전사 분석업무 총괄 조직 존재
- 경영진의 분석 업무 이해 능력
- 분석 기법
- 업무별 적합한 분석 기법 사용
- 분석 업무 도입 방법론/ 라이브러리/ 효과성 평가/ 정기적 개선
- 분석 데이터
- 분석 업무를 위한 데이터 충분성/ 신뢰성/ 적시성
- 비구조적 데이터 관리
- 외부 데이터 활용 체계
- 기준 데이터 관리 (MDM)
- 분석 문화
- 사실에 근거한 의사 결정
- 관리자의 데이터 중시 정도
- 회의 등에서 데이터 활용 상황
- 경영진의 직관 vs 데이터 기반의 의사 결정
- 데이터 공유 및 협업 문화
- IT 인프라
- 운영 시스템 통합
- EAI, ETL 등 데이터 유통 체계
- 분석 전용 서버 및 스토리지
- 빅데이터/ 통계/ 시각화 분석 환경
3. 분석 성숙도
- 조직의 성숙도는 CMMI 모델로 평가
- 진단분류
- 비즈니스
- 조직, 역량
- IT
- 수준 분류
- 도입단계: 분석 환경 및 시스템이 있음
- 활용단계: 결과를 실업무에 적용
- 확산단계; 전사차원 공유
- 최적화 단계: 분석을 통해 혁신
4. 데이터 거버넌스
- 전사차원 모든 데이터에 대해 표준화된 관리 체계 수립 및 운영 프레임워크 구축
- 구성요소
- 원칙: 데이터 유지, 관리 지치 ㅇ및 가이드
- 조직: 관리조직 (DA, DBA)
- 프로세스: 작업 모니터링 활동
- 체계
- 데이터 표준화: 표준용어 설정, 명명규칙 수립, 메타데이터 구축, 데이터 사전 구축
- 데이터 관리 체계: 메타데이터, 데이터 관리체계 수립
- 데이터 저장소 관리: 전사 차원 저장소, 영향도 평가
- 표준화 활동: 주기적 모니터링 및 실용성
5. 데이터 조직 및 인력 방안
- 집중구조
- 전사 분석 업무를 별도의 조직에서 전담
- 분석조직이 우선순위를 결정
- 현업과 분석업의 이중화/ 이원화
- 기능구조
- 일반적 분석 수행 구조
- 별도 분석 조직이 없고 해당 부서에서 분석 수행
- 전사적 핵심분석이 어려우며 과거 실적에 국한된 분석
- 분산구조
- 분석 조직 인력을 현업 부서로 배치
- 전사 차원의 우선순위 수행
- 분석 결과에 따른 신속한 액션 가능
- 베스트 프랙티스 공유
- 업무 과다 이원화 가능성 존재
5. Self Service Analystic
- BI, Ad hoc Reprot, OLAP, ML 등의 기능 포함
- Reference method의 작성 및 공유, 표준 데이터 활용, 도구 사용의 지속적 교육 필요
- 분산 처리 지원하지 않음
댓글남기기