2 분 소요

1. 표본조사

  • 표본오차
    • 모집단을 대표할 수 있는 표본 단위들이 조사 대상으로 추출되지 못함으로 발생하는 오차
  • 표본편의
    • 표본추출 과정에서 특정 대상이 다른 대상에 비해 우선적으로 추출될 때 생기는 오차
    • 모수를 작게 또는 크게 할 때 추정하는 것과 같이 표본추출방법에서 기인하는 오차
    • 확률화에 의해 최소화하거나 없앨 수 있음
    • 확률화는 모집단으로부터 편의되지 않는 표본을 추출하는 절차를 의미함
    • 확률화 절차에 의해 추출된 표본을 확률표본이라고 함
  • 비표본오차
    • 표본오차를 제외한 모든 오차
    • 조사 과정에서 발생하는 부주의나 실수 등으로 기인함
    • 조사대상이 증가하면 오차가 커짐
    • 표본값으로 모집단의 모수를 추정할 때 표본오차의 비표본 오차가 발생

2. T 검정

  1. 일표본 t 검정
    • 단일 모집단 ~ 정규분포를 따름
    • 연속형 변수의 평균을 특정값과 비교 ~ 모평균
  2. 대응표본 t 검정
    • 단일 모집단 - 정규분포를 따름
    • 두 번의 처리 후 평균의 차이 비교
  3. 독립표본 t 검정
    • 두개의 독립된 모집단의 모평균 비교
    • 정규성, 등분산성 ~ 두 독립 집단의 모분산이 동일하다
    • 등분산검정이 먼저 수행되어야 함

3. 분산 분석

  1. 일원배치 분산 분석
    • 하나의 범주형 변수의 영향을 알아봄
    • F검정 통계량 이용
    • 정규성, 등분산 가정
    • 사후분석 - 집단간 모평균 차이가 있을 때 어떤 집단간 차이인지 확인
      • 던칸, MRT, 피셔, LSD, HSD, Scheffe
  2. 이원 배치 분산분석
    • 두개의 범주형 변수에 대한 영향을 알아봄
    • 두 독립변수 사이에 상관관계가 있는지 교호작용 검증 필요
      • 교호작용이 있다면 검정이 무의미
      • 교호작용이 없다면 주효과 검정 진행

4. 교차 분석

  • 범주형 자료의 변수간 관계를 알아봄
  • 적합도 검정, 독립성 검정, 동질성 검정
  • 카이제곱 통계량 사용

5. 분포

  1. t 분포
    • 집단간 평균 검정
  2. 카이제곱 분포
    • 모평균이 알려지지 않은 모집단의 모분산 가설 검정
  3. F 분포
    • 두 집단의 분산 검정 -> 자유도를 2개 가짐
    • 다중회귀모형

6. 통계적 추정

  • 구간추정은 신뢰구간으로 모수가 특정한 구간에 있을 것이라고 추정
    • 구해진 구간을 신뢰구간이라고 함
  • 귀무가설이 사실일때, 관측된 검정통계량의 값보다 귀무가설을 지지하는 방향으로 검정 통계량이 안나올 확률이 P-value
  • 기각역이란 대립가설이 맞을 때 그것을 받아들이는 확률

7. 상관계수

  1. 스피어만 상관계수

    • 서열 척도(순서형)로 측정된 변수간 관계를 측정
    • -1과 1 사이의 값을 가짐
    • 비모수적 상관관계를 나타냄
    • 비선형적 상관관계 측정 가능
  2. 피어슨 상관계수

    • 연속형 변수에 사용
    • 두 변수간 선형관계의 크기 측정
    • 정규성을 가정함
    • 등간 척도 및 비율 척도
    • 상관계수간 유의성은 판단할 수 없음

    8. 회귀분석 가정

    1. 선형성
    2. 등분산성
      • y축이 residual인 그래프
      • 그래프가 일정해야 함
    3. 독립성
      • Durbin-Watson: 회귀 모형 오차항의 자기상관이 있는지에 대한 검정
    4. 비상관성
      • 오차간의 상관성이 없음
    5. 정상성
      • 오차가 정규분포

    9. 정규성 검정

    1. 그래프
      • 히스토그램, Q-Q plot, Shapro-Wilks test

    10. 다차원척도법(MDS)

    • 여러 대상들 간의 관계를 유사성/ 비유사성의 상대적 거리로 측정하여 2차원 혹은 3차원에 표현
    • 데이터 속에 잠재한 패턴을 찾기 위해 복잡한 구조를 저차원 공간에 표현
    • 스트레스 값이 0.05 이하면 적합도가 좋은 것
    • 계량적 다차원척도법은 비율척도, 구간척도
    • 비계량적 다차원척도법은 순서척도

    11. 시계열 요소 분해

    1. 추세분석: 장기적으로 변해가는 큰 흐름
    2. 계절변동: 일정한 주기를 가지고 같은 패턴을 보임
    3. 순환변동: 경제적이나 자연적인 이유 없이 알려지지 않은 주기를 가지고 변화
    4. 불규칙 변동: 불규칙하게 변동하는 급격한 환경 변화, 천재지변 같은 것

    12. 데이터 마이닝 단계

    1. 목적 설정: 명확한 목적 설정, 전문가가 필요한 모델 및 데이터 정의
    2. 데이터 준비: 데이터 정제, 품질 검사, 데이터 보강
    3. 가공: 목적변수 정리, 소프트웨어에 적용할 수 있도록 준비
    4. 기법 적용: 1단계에서 정의한 데이터 마이닝 기법 적용
    5. 검증: 최적 모델 선정, 기대효과 전파

    13. Decision Tree

    • 분리 변수의 P차원 공간에 대한 현재 분할은 이전 분할에 영향을 받음

    • 단계

      1. 성장: 최적의 분리 규칙을 찾아 나무를 성장

      2. 가지치기: 오차를 크게할 가능성이 있는 부적절한 추론 규칙 가지 제거 ~ 과대적합 해결

      3. 타당성 평가: 이익도표, 위험도표

      4. 해석 및 예측: 구축모형 해석 및 예측 수행

댓글남기기