2 분 소요

[1] 데이터와 정보

1. 암묵지 vs 형식지

  • 암묵지 ~ 학습, 경험 ~ 공유 어려움 ~ 조직이 공통적으로 내면화하여 알게됨
  • 형식지 ~ 문서, 매뉴얼 ~ 공유 쉬움 ~ 개인이 연결화여 표출된 것을 통해 알게 됨

2. 데이터 유형

  • 정형: 연산가능 RDMS 저장
  • 반정형: 형태태(스키마, 메타데이터)가 있으며 연산 불가능, 파일로 저장 -> 웹로그, 센서
  • 비정형: 형태가 없으며 연산도 불가능, NoSQL로 저장 -> 소셜 데이터 영상 이미지

3. 메타데이터

  • 데이터에 관한 구조화된 데이터, 다른 데이터를 설명하는 것

[2] DB

1. DB 특징

  • 통합된 데이터: 데이터가 중복되지 않음
  • 저장된 데이터: 저장 매체에 저장됨, 컴퓨터 기술 바탕
  • 공용 데이터: 데이터를 공동으로 이용, 대용량화 및 구조가 복잡함
  • 변화되는 데이터: 저장시에는 현 시점의 데이터이나 항상 변화함 -> 항상 현재의 정확한 데이터를 유지해야 함

[3] DB 활용

1. 기업 내부 데이터 베이스

  • OLTP (On-Line Transaction Processing)
    • 클라이언트가 메세지를 보내면 호스트가 DB에 접근해 처리 결과를 리턴
    • 현업의 대부분 업무 -> 복잡, 예측 가능
  • OLAP (On-Line Analytic Processing)
    • 비즈니스 관점에서 의사결정에 활용할 수 있는 정보를 제공 -> 단순, 예측 어려움
    • 빅데이터가 아닌 기존 D.W에서 활용
    • 다차원의 데이터를 대화식으로 분석

2. 분야별 데이터 베이스

  1. 제조
    • ERP, BI, CRM
    • RTE: ERP, CRM, SCM등을 통합 -> 빠른 의사 결정
  2. 금융
    • EAI
    • EDW: DW를 전사적으로 확장, 분석 어플리케이션의 원천
  3. 유통
    • KMS: 지식 재산의 중요성 -> 지식관리 시스템
  4. 사회 기반
    • EDI: 표준화 양식을 통해 서류를 거래처에 전송
    • VAN: ISP로부터 회선을 차용해 독자적인 네트워크 형성, 부가가치 높은 서비스
    • CALS: 경영통합정보 시스템

3. 산업별 분석 애플리케이션

  • 금융: 신용점수 산정, 사기 탐지, 가격 책정, 프로그램트레이딩, 클레임분석, 고객 수익성 분석
  • 병원: 가격 책정, 고객 로열티, 수익 관리
  • 에너지: 트레이딩, 공급/ 수요 예측
  • 정부: 사기 탐지, 사레 관리, 범죄 방지, 수익 최적화

4. 데이터 사이언티스트 역량

  • 스토리텔링, 커뮤니케이션, 창의력, 열정, 직관력, 비판적 시각, 글쓰기 능력

2장 데이터의 가치와 미래

[1] 빅데이터 이해

1. 빅데이터 정의

  • 3V (volume, velocity, variety)로 정의되는 데이터 변화에 초점을 맞춘 좁은 범위 정의
  • 분석 기술적 변화까지 포함하는 중간 범위 정의
  • 인재, 조직 변화까지 포함한 넓은 관점에서의 정의

2. 빅데이터 비유

  • 산업혁명 석탄 철 - 제조업 뿐 아니라 서비스 분야 생산성, 전반적 변화
  • 21세기 원유 - 경제 성장에 필요한 정보를 제공, 새로운 범주의 산업
  • 렌즈 - 산업 발전에 영향
  • 플랫폼 - 서드파트 비즈니스에 활용

3. 빅데이터가 만들어내는 변화

  • 사전처리 -> 사후처리 : 가능한 많은 정보를 모으고 이후 사후처리
  • 표본조사 -> 전수조사 : 비용 감소, 클라우드 발전으로 인해 전수조사
  • 질 -> 양 : 양질의 ㅈ어보가 오류 정보보다 많음
  • 인과관계 -> 상관관계 : 인과관계보다 상관관계로 미래예측 성능 압도

[2] 빅데이터의 가치와 영향

1. 빅데이터 가치 산정이 어려운 이유

  • 데이터 활용 방식: 특정 데이터를 누가 언제 활용할지 알 수 없음
  • 새로운 가치 창출: 기존에 없던 가치를 창출함
  • 분석 기술 발전: 현재 가치가 없어도 추후 분석 기술의 발전으로 가치를 가질 수 있음

[3] 비즈니스 모델

1. 활용 기법

  • 연관규칙 - 다 변인간 상관관계를 찾아냄 - 구매 연관
  • 유형 분석 - 분류
  • 유전자 알고리즘 - 점진적으로 진화 - 최적 조건
  • 기계학습 - 예측 - 기록 바탕
  • 회귀 분석 - 두 변인간의 관계
  • 감정분석
  • 사회관계망 분석 - 관계 및 영향력 - 고객 관계망

[4] 위기 요인과 통제 방안

  1. 사생활 침해
    • 개인정보가 포함된 데이터의 목적 외 사용
    • 사례: 여행사실을 트위터로 확인하고 강도
    • 해결방안: 동의에서 책임으로 -> 사용자가 책임을 지는 보호 장치
  2. 책임원칙 훼손
    • 예측 알고리즘의 희생자 발생 가능성 -> 민주주의 원칙 유배
    • 사례: 마이너리티 리포트, 범죄 예측
    • 해결방안: 결과기반 책임 원칙 -> 예측에 의한 불이익을 최소화
  3. 데이터 오용
    • 예측치가 항상 맞을수 없으므로 잘못된 지표를 사용할 수 있음
    • 사례: 전쟁 지표
    • 해결방안: 알고리즘 접근 허용 -> 알고리즘 접근을 통해 부당함을 입증할 수 있게함
    • 알고리즈미스트
  4. 개인정보 비식별화 기법
    • 통계처리: 개별 데이터를 감춤
    • 데이터 마스킹: 길이, 유형, 형식의 속성은 유지
    • 가명처리: 값 변경
    • 범주화: 데이터를 범주화
    • 난수화: 사생활 침해 방지를 위해 데이터 무작위 처리

댓글남기기