ADP 필기 4장 통계
1. 표본조사
- 표본오차
- 모집단을 대표할 수 있는 표본 단위들이 조사 대상으로 추출되지 못함으로 발생하는 오차
- 표본편의
- 표본추출 과정에서 특정 대상이 다른 대상에 비해 우선적으로 추출될 때 생기는 오차
- 모수를 작게 또는 크게 할 때 추정하는 것과 같이 표본추출방법에서 기인하는 오차
- 확률화에 의해 최소화하거나 없앨 수 있음
- 확률화는 모집단으로부터 편의되지 않는 표본을 추출하는 절차를 의미함
- 확률화 절차에 의해 추출된 표본을 확률표본이라고 함
- 비표본오차
- 표본오차를 제외한 모든 오차
- 조사 과정에서 발생하는 부주의나 실수 등으로 기인함
- 조사대상이 증가하면 오차가 커짐
- 표본값으로 모집단의 모수를 추정할 때 표본오차의 비표본 오차가 발생
2. T 검정
- 일표본 t 검정
- 단일 모집단 ~ 정규분포를 따름
- 연속형 변수의 평균을 특정값과 비교 ~ 모평균
- 대응표본 t 검정
- 단일 모집단 - 정규분포를 따름
- 두 번의 처리 후 평균의 차이 비교
- 독립표본 t 검정
- 두개의 독립된 모집단의 모평균 비교
- 정규성, 등분산성 ~ 두 독립 집단의 모분산이 동일하다
- 등분산검정이 먼저 수행되어야 함
3. 분산 분석
- 일원배치 분산 분석
- 하나의 범주형 변수의 영향을 알아봄
- F검정 통계량 이용
- 정규성, 등분산 가정
- 사후분석 - 집단간 모평균 차이가 있을 때 어떤 집단간 차이인지 확인
- 던칸, MRT, 피셔, LSD, HSD, Scheffe
- 이원 배치 분산분석
- 두개의 범주형 변수에 대한 영향을 알아봄
- 두 독립변수 사이에 상관관계가 있는지 교호작용 검증 필요
- 교호작용이 있다면 검정이 무의미
- 교호작용이 없다면 주효과 검정 진행
4. 교차 분석
- 범주형 자료의 변수간 관계를 알아봄
- 적합도 검정, 독립성 검정, 동질성 검정
- 카이제곱 통계량 사용
5. 분포
- t 분포
- 집단간 평균 검정
- 카이제곱 분포
- 모평균이 알려지지 않은 모집단의 모분산 가설 검정
- F 분포
- 두 집단의 분산 검정 -> 자유도를 2개 가짐
- 다중회귀모형
6. 통계적 추정
- 구간추정은 신뢰구간으로 모수가 특정한 구간에 있을 것이라고 추정
- 구해진 구간을 신뢰구간이라고 함
- 귀무가설이 사실일때, 관측된 검정통계량의 값보다 귀무가설을 지지하는 방향으로 검정 통계량이 안나올 확률이 P-value
- 기각역이란 대립가설이 맞을 때 그것을 받아들이는 확률
7. 상관계수
-
스피어만 상관계수
- 서열 척도(순서형)로 측정된 변수간 관계를 측정
- -1과 1 사이의 값을 가짐
- 비모수적 상관관계를 나타냄
- 비선형적 상관관계 측정 가능
-
피어슨 상관계수
- 연속형 변수에 사용
- 두 변수간 선형관계의 크기 측정
- 정규성을 가정함
- 등간 척도 및 비율 척도
- 상관계수간 유의성은 판단할 수 없음
8. 회귀분석 가정
- 선형성
- 등분산성
- y축이 residual인 그래프
- 그래프가 일정해야 함
- 독립성
- Durbin-Watson: 회귀 모형 오차항의 자기상관이 있는지에 대한 검정
- 비상관성
- 오차간의 상관성이 없음
- 정상성
- 오차가 정규분포
9. 정규성 검정
- 그래프
- 히스토그램, Q-Q plot, Shapro-Wilks test
10. 다차원척도법(MDS)
- 여러 대상들 간의 관계를 유사성/ 비유사성의 상대적 거리로 측정하여 2차원 혹은 3차원에 표현
- 데이터 속에 잠재한 패턴을 찾기 위해 복잡한 구조를 저차원 공간에 표현
- 스트레스 값이 0.05 이하면 적합도가 좋은 것
- 계량적 다차원척도법은 비율척도, 구간척도
- 비계량적 다차원척도법은 순서척도
11. 시계열 요소 분해
- 추세분석: 장기적으로 변해가는 큰 흐름
- 계절변동: 일정한 주기를 가지고 같은 패턴을 보임
- 순환변동: 경제적이나 자연적인 이유 없이 알려지지 않은 주기를 가지고 변화
- 불규칙 변동: 불규칙하게 변동하는 급격한 환경 변화, 천재지변 같은 것
12. 데이터 마이닝 단계
- 목적 설정: 명확한 목적 설정, 전문가가 필요한 모델 및 데이터 정의
- 데이터 준비: 데이터 정제, 품질 검사, 데이터 보강
- 가공: 목적변수 정리, 소프트웨어에 적용할 수 있도록 준비
- 기법 적용: 1단계에서 정의한 데이터 마이닝 기법 적용
- 검증: 최적 모델 선정, 기대효과 전파
13. Decision Tree
-
분리 변수의 P차원 공간에 대한 현재 분할은 이전 분할에 영향을 받음
-
단계
-
성장: 최적의 분리 규칙을 찾아 나무를 성장
-
가지치기: 오차를 크게할 가능성이 있는 부적절한 추론 규칙 가지 제거 ~ 과대적합 해결
-
타당성 평가: 이익도표, 위험도표
-
해석 및 예측: 구축모형 해석 및 예측 수행
-
댓글남기기