ADP 필기 1장 데이터의 이해
[1] 데이터와 정보
1. 암묵지 vs 형식지
- 암묵지 ~ 학습, 경험 ~ 공유 어려움 ~ 조직이 공통적으로 내면화하여 알게됨
- 형식지 ~ 문서, 매뉴얼 ~ 공유 쉬움 ~ 개인이 연결화여 표출된 것을 통해 알게 됨
2. 데이터 유형
- 정형: 연산가능 RDMS 저장
- 반정형: 형태태(스키마, 메타데이터)가 있으며 연산 불가능, 파일로 저장 -> 웹로그, 센서
- 비정형: 형태가 없으며 연산도 불가능, NoSQL로 저장 -> 소셜 데이터 영상 이미지
3. 메타데이터
- 데이터에 관한 구조화된 데이터, 다른 데이터를 설명하는 것
[2] DB
1. DB 특징
- 통합된 데이터: 데이터가 중복되지 않음
- 저장된 데이터: 저장 매체에 저장됨, 컴퓨터 기술 바탕
- 공용 데이터: 데이터를 공동으로 이용, 대용량화 및 구조가 복잡함
- 변화되는 데이터: 저장시에는 현 시점의 데이터이나 항상 변화함 -> 항상 현재의 정확한 데이터를 유지해야 함
[3] DB 활용
1. 기업 내부 데이터 베이스
- OLTP (On-Line Transaction Processing)
- 클라이언트가 메세지를 보내면 호스트가 DB에 접근해 처리 결과를 리턴
- 현업의 대부분 업무 -> 복잡, 예측 가능
- OLAP (On-Line Analytic Processing)
- 비즈니스 관점에서 의사결정에 활용할 수 있는 정보를 제공 -> 단순, 예측 어려움
- 빅데이터가 아닌 기존 D.W에서 활용
- 다차원의 데이터를 대화식으로 분석
2. 분야별 데이터 베이스
- 제조
- ERP, BI, CRM
- RTE: ERP, CRM, SCM등을 통합 -> 빠른 의사 결정
- 금융
- EAI
- EDW: DW를 전사적으로 확장, 분석 어플리케이션의 원천
- 유통
- KMS: 지식 재산의 중요성 -> 지식관리 시스템
- 사회 기반
- EDI: 표준화 양식을 통해 서류를 거래처에 전송
- VAN: ISP로부터 회선을 차용해 독자적인 네트워크 형성, 부가가치 높은 서비스
- CALS: 경영통합정보 시스템
3. 산업별 분석 애플리케이션
- 금융: 신용점수 산정, 사기 탐지, 가격 책정, 프로그램트레이딩, 클레임분석, 고객 수익성 분석
- 병원: 가격 책정, 고객 로열티, 수익 관리
- 에너지: 트레이딩, 공급/ 수요 예측
- 정부: 사기 탐지, 사레 관리, 범죄 방지, 수익 최적화
4. 데이터 사이언티스트 역량
- 스토리텔링, 커뮤니케이션, 창의력, 열정, 직관력, 비판적 시각, 글쓰기 능력
2장 데이터의 가치와 미래
[1] 빅데이터 이해
1. 빅데이터 정의
- 3V (volume, velocity, variety)로 정의되는 데이터 변화에 초점을 맞춘 좁은 범위 정의
- 분석 기술적 변화까지 포함하는 중간 범위 정의
- 인재, 조직 변화까지 포함한 넓은 관점에서의 정의
2. 빅데이터 비유
- 산업혁명 석탄 철 - 제조업 뿐 아니라 서비스 분야 생산성, 전반적 변화
- 21세기 원유 - 경제 성장에 필요한 정보를 제공, 새로운 범주의 산업
- 렌즈 - 산업 발전에 영향
- 플랫폼 - 서드파트 비즈니스에 활용
3. 빅데이터가 만들어내는 변화
- 사전처리 -> 사후처리 : 가능한 많은 정보를 모으고 이후 사후처리
- 표본조사 -> 전수조사 : 비용 감소, 클라우드 발전으로 인해 전수조사
- 질 -> 양 : 양질의 ㅈ어보가 오류 정보보다 많음
- 인과관계 -> 상관관계 : 인과관계보다 상관관계로 미래예측 성능 압도
[2] 빅데이터의 가치와 영향
1. 빅데이터 가치 산정이 어려운 이유
- 데이터 활용 방식: 특정 데이터를 누가 언제 활용할지 알 수 없음
- 새로운 가치 창출: 기존에 없던 가치를 창출함
- 분석 기술 발전: 현재 가치가 없어도 추후 분석 기술의 발전으로 가치를 가질 수 있음
[3] 비즈니스 모델
1. 활용 기법
- 연관규칙 - 다 변인간 상관관계를 찾아냄 - 구매 연관
- 유형 분석 - 분류
- 유전자 알고리즘 - 점진적으로 진화 - 최적 조건
- 기계학습 - 예측 - 기록 바탕
- 회귀 분석 - 두 변인간의 관계
- 감정분석
- 사회관계망 분석 - 관계 및 영향력 - 고객 관계망
[4] 위기 요인과 통제 방안
- 사생활 침해
- 개인정보가 포함된 데이터의 목적 외 사용
- 사례: 여행사실을 트위터로 확인하고 강도
- 해결방안: 동의에서 책임으로 -> 사용자가 책임을 지는 보호 장치
- 책임원칙 훼손
- 예측 알고리즘의 희생자 발생 가능성 -> 민주주의 원칙 유배
- 사례: 마이너리티 리포트, 범죄 예측
- 해결방안: 결과기반 책임 원칙 -> 예측에 의한 불이익을 최소화
- 데이터 오용
- 예측치가 항상 맞을수 없으므로 잘못된 지표를 사용할 수 있음
- 사례: 전쟁 지표
- 해결방안: 알고리즘 접근 허용 -> 알고리즘 접근을 통해 부당함을 입증할 수 있게함
- 알고리즈미스트
- 개인정보 비식별화 기법
- 통계처리: 개별 데이터를 감춤
- 데이터 마스킹: 길이, 유형, 형식의 속성은 유지
- 가명처리: 값 변경
- 범주화: 데이터를 범주화
- 난수화: 사생활 침해 방지를 위해 데이터 무작위 처리
댓글남기기