ADP 필기 4장 통계

2023-06-12 2 분 소요

1. 표본조사

표본오차
- 모집단을 대표할 수 있는 표본 단위들이 조사 대상으로 추출되지 못함으로 발생하는 오차
표본편의
- 표본추출 과정에서 특정 대상이 다른 대상에 비해 우선적으로 추출될 때 생기는 오차
- 모수를 작게 또는 크게 할 때 추정하는 것과 같이 표본추출방법에서 기인하는 오차
- 확률화에 의해 최소화하거나 없앨 수 있음
- 확률화는 모집단으로부터 편의되지 않는 표본을 추출하는 절차를 의미함
- 확률화 절차에 의해 추출된 표본을 확률표본이라고 함
비표본오차
- 표본오차를 제외한 모든 오차
- 조사 과정에서 발생하는 부주의나 실수 등으로 기인함
- 조사대상이 증가하면 오차가 커짐
- 표본값으로 모집단의 모수를 추정할 때 표본오차의 비표본 오차가 발생

2. T 검정

일표본 t 검정
- 단일 모집단 ~ 정규분포를 따름
- 연속형 변수의 평균을 특정값과 비교 ~ 모평균
대응표본 t 검정
- 단일 모집단 - 정규분포를 따름
- 두 번의 처리 후 평균의 차이 비교
독립표본 t 검정
- 두개의 독립된 모집단의 모평균 비교
- 정규성, 등분산성 ~ 두 독립 집단의 모분산이 동일하다
- 등분산검정이 먼저 수행되어야 함

3. 분산 분석

일원배치 분산 분석
- 하나의 범주형 변수의 영향을 알아봄
- F검정 통계량 이용
- 정규성, 등분산 가정
- 사후분석 - 집단간 모평균 차이가 있을 때 어떤 집단간 차이인지 확인
  - 던칸, MRT, 피셔, LSD, HSD, Scheffe
이원 배치 분산분석
- 두개의 범주형 변수에 대한 영향을 알아봄
- 두 독립변수 사이에 상관관계가 있는지 교호작용 검증 필요
  - 교호작용이 있다면 검정이 무의미
  - 교호작용이 없다면 주효과 검정 진행

4. 교차 분석

범주형 자료의 변수간 관계를 알아봄
적합도 검정, 독립성 검정, 동질성 검정
카이제곱 통계량 사용

5. 분포

t 분포
- 집단간 평균 검정
카이제곱 분포
- 모평균이 알려지지 않은 모집단의 모분산 가설 검정
F 분포
- 두 집단의 분산 검정 -> 자유도를 2개 가짐
- 다중회귀모형

6. 통계적 추정

구간추정은 신뢰구간으로 모수가 특정한 구간에 있을 것이라고 추정
- 구해진 구간을 신뢰구간이라고 함
귀무가설이 사실일때, 관측된 검정통계량의 값보다 귀무가설을 지지하는 방향으로 검정 통계량이 안나올 확률이 P-value
기각역이란 대립가설이 맞을 때 그것을 받아들이는 확률

7. 상관계수

스피어만 상관계수
- 서열 척도(순서형)로 측정된 변수간 관계를 측정
- -1과 1 사이의 값을 가짐
- 비모수적 상관관계를 나타냄
- 비선형적 상관관계 측정 가능
피어슨 상관계수
- 연속형 변수에 사용
- 두 변수간 선형관계의 크기 측정
- 정규성을 가정함
- 등간 척도 및 비율 척도
- 상관계수간 유의성은 판단할 수 없음
8. 회귀분석 가정
1. 선형성
2. 등분산성
  - y축이 residual인 그래프
  - 그래프가 일정해야 함
3. 독립성
  - Durbin-Watson: 회귀 모형 오차항의 자기상관이 있는지에 대한 검정
4. 비상관성
  - 오차간의 상관성이 없음
5. 정상성
  - 오차가 정규분포
9. 정규성 검정
1. 그래프
  - 히스토그램, Q-Q plot, Shapro-Wilks test
10. 다차원척도법(MDS)
- 여러 대상들 간의 관계를 유사성/ 비유사성의 상대적 거리로 측정하여 2차원 혹은 3차원에 표현
- 데이터 속에 잠재한 패턴을 찾기 위해 복잡한 구조를 저차원 공간에 표현
- 스트레스 값이 0.05 이하면 적합도가 좋은 것
- 계량적 다차원척도법은 비율척도, 구간척도
- 비계량적 다차원척도법은 순서척도
11. 시계열 요소 분해
1. 추세분석: 장기적으로 변해가는 큰 흐름
2. 계절변동: 일정한 주기를 가지고 같은 패턴을 보임
3. 순환변동: 경제적이나 자연적인 이유 없이 알려지지 않은 주기를 가지고 변화
4. 불규칙 변동: 불규칙하게 변동하는 급격한 환경 변화, 천재지변 같은 것
12. 데이터 마이닝 단계
1. 목적 설정: 명확한 목적 설정, 전문가가 필요한 모델 및 데이터 정의
2. 데이터 준비: 데이터 정제, 품질 검사, 데이터 보강
3. 가공: 목적변수 정리, 소프트웨어에 적용할 수 있도록 준비
4. 기법 적용: 1단계에서 정의한 데이터 마이닝 기법 적용
5. 검증: 최적 모델 선정, 기대효과 전파
13. Decision Tree
- 분리 변수의 P차원 공간에 대한 현재 분할은 이전 분할에 영향을 받음
- 단계
  1. 성장: 최적의 분리 규칙을 찾아 나무를 성장
  2. 가지치기: 오차를 크게할 가능성이 있는 부적절한 추론 규칙 가지 제거 ~ 과대적합 해결
  3. 타당성 평가: 이익도표, 위험도표
  4. 해석 및 예측: 구축모형 해석 및 예측 수행

Twitter Facebook LinkedIn

sigi

ADP 필기 4장 통계

1. 표본조사

2. T 검정

3. 분산 분석

4. 교차 분석

5. 분포

6. 통계적 추정

7. 상관계수

8. 회귀분석 가정

9. 정규성 검정

10. 다차원척도법(MDS)

11. 시계열 요소 분해

12. 데이터 마이닝 단계

13. Decision Tree

공유하기

댓글남기기

참고

Llama 3.1 한국어 Finetuning

LLM의 활용 방법

k8s (3) Pod 정리

Continuous distribution (3) Gamma Distribution