3 분 소요

1. Definition

평균이 $\mu$이고 분산이 $\sigma^2$인 모집단에서 크기 n인 표본을 추출할 때(=sampling), 표본의 평균 $\bar{x}$는 근사적으로 정규분포 $N(\mu, \sigma^2/n)$을 따른다. 또한, $\bar{x}$를 표준화 시킨 Z는 근사적으로 표준정규분포 $N(0,1)$을 따른다.

📍 Description

  • 모집단은 어떠한 평균과 분산을 가지고 있으나 현재 알지 못함

  • n개의 표본을 여러번 sampling 수행

    • 일반적으로 sampling하는 n은 통일함

    • 단, $n \geq 30$

  • 각 표본에 속한 데이터의 평균$(\bar{x})$과 분산$(s^2)$을 구할 수 있음

  • 표본의 평균을 확률변수 $\bar{X}$라고 했을 때 이는 정규분포 $N(\mu, \sigma^2)$에 근사함

2. Visualization

import numpy as np
import matplotlib.pyplot as plt

# 임의의 비정규 분포에서 샘플링 (예: 균등 분포)
population = np.random.uniform(low=0, high=1, size=10000)

# 중심극한정리 확인을 위한 샘플 크기 및 반복 횟수 설정
sample_sizes = [1, 2, 5, 30, 5000]
n_experiments = 1000

# 샘플 크기별로 중심극한정리 시각화
plt.figure(figsize=(15, 9))

for i, sample_size in enumerate(sample_sizes, 1):
    means = [np.mean(np.random.choice(population, sample_size, replace=True)) for _ in range(n_experiments)]
    
    plt.subplot(2, 3, i)
    plt.hist(means, bins=30, density=True, alpha=0.6, label=f'Sample size = {sample_size}')
    plt.xlabel('Sample Mean')
    plt.ylabel('Frequency')
    plt.title(f'Sample Size = {sample_size}')
    plt.legend()

plt.tight_layout()
plt.show()

  • sample size가 커질 수록 표본평균의 분포가 정규분포에 가까워짐

  • 정규분포의 평균은 모집단의 평균에 근사함

3. Usage

중심극한정리, CLT가 통계학에서 중요하다고 많이 들어왔지만 실제로 어느 부분에서 활용되는지 정확히 정의할 수 없었다. 따라서 이 글을 통해 정리하고자 한다.


📍모수추정

모수는 모집단의 특성을 뜻하며 (모)평균, (모)분산 등 다양한 것들이 있는데, 이들은 특정 확률분포의 theta로 정의할 수 있다. 예를들어 정규분포는 평균과, 분산으로 완벽히 정의되는 확률분포라고 설명 할 수 있다. 즉, 평균과 분산을 안다면 정규분포를 정의할 수 있고, 이를 통해 확률에 기반한 예측을 수행할 수 있다.

조금 더 쉬운 예시를 들어보자. 제조업에서는 모집단을 전체 부품으로 정의하고 (예를들어 볼트), 해당 부품의 모수인 평균을 안다면 품질에 대한 관리가 용이할 것이다. 또한 고혈압 약을 개발하는 제약회사라면 전체 고혈압 환자를 모집단으로 정의하고 약을 먹은/ 먹지않은 고혈압 환자의 혈압 평균을 통해 약효에 대해 추정할 수 있을 것이다. 즉, 모집단의 모수를 아는 것은 연구의 목적이 된다.

그럼 모수 추정은 어떻게 해야할까? 모집단에 속하는 모든 개체들을 전수조사 한다면, 원하는 특성을 찾아낼 수 있을 것이다. 그러나 일반적으로 모집단은 매우 크기 때문에 전수조사가 불가능하다. 따라서 모집단의 특성을 잘 대표하는 표본을 뽑아서 표본을 통해 모집단을 통계적으로 추론하는 방식을 사용한다.

위 내용까지는 논리적으로 타당해 보인다. 그런데 문제는 추출한 표본이 결국 모집단의 분포에 의존적이기 때문에 결국 다시 미지의 모수를 구하는 일이 불가능한 일이 되어버린다는 것이다. 이때, 중심극한정리의 정의가 이를 해결해 줌을 알 수 있다. CLT의 가장 중요한 두 가지는 “모집단의 분포에 상관없이”, “표본평균의 분포가 정규분포로 근사됨” 이다. 이를통해 모든 모집단으로 부터 추출된 표본집합의 평균이 정규분포임으로 가정할 수 있고, 이를 통해 모집단으 모수를 추론할 수 있게 된다. 즉, 전수조사 없이 불가능했던 모수 추론을 중심극한정리가 해결해주고, 연구의 목적을 이루게 해주는 통계적으로 중요한 연결고리 역할을 수행하게 된다.


📍추가내용

  • 분포를 몰라도 문제 해결에 지장이 없다고 과감하게 생각함

  • 확률변수의 합(~평균)에 관한 확률을 표준정규분포에 관한 확률로 변환하여 쉽게 계산함

4. Inference

  • CLT를 통해 표본평균의 분포가 $N(\mu, \sigma^2)$를 근사하기에, 모수인 모평균 $\mu$를 추정할 수 있음

  • 점추정이 아닌 구간추정을 수행함

  • 표준정규분포로의 변환을 통해 확률 계산을 용이하게 함

\[P\{-Z_{a/2} \leq {{\bar{X} - \mu} \over {{S} \over \sqrt{n}}} \leq Z_{a/2} \} = 1-\alpha\]
  • 위 식에서 $\bar{X}$는 표본평균의 확률분포로써, 표본에 따라 변할 수 있음

  • 계산시에는 주어진 데이터(=표본)의 평균 값(=확률변수의 실현값)을 대입함


📍 구간추정을 하는 이유

모수를 추정하기 위해 CLT를 사용하는 이유는 위에 설명을 하였다. 그런데 왜 굳이 구간 추정을 해야하는 걸까?

가장 첫번째 description의 그림과 실험 결과를 통해 CLT를 적용하기 위해서는 $n \gte 30$인 표본을 여러번 추출하고 그 표본들에 대한 평균을 구해보면, 표본의 평균이 정규분포를 따른다는 것을 알 수 있다. 그런데 이 또한 제약이 존재한다. 가장 첫번째로 CLT의 가정이되는 모집단에서 표본을 뽑는 sampling의 과정을 여러번 수행할 수 없다. 일반적인 경우 실험에 대한 데이터만이 주어지게 되고 이를 어떠한 모집단에서 부터 나온 데이터라고 가정하게 된다. 그렇다면 한정적인 데이터를 가지고 어떻게 CLT 이론을 적용시켜야 하는지 의문이 생기게 된다.

CLT의 정의를 다시한번 살펴보면 표본평균은 정규분포를 따르고, 해당 분포의 평균은 모집단의 평균에 근사함을 알 수 있다. 이때 정규분포는 확률분포로써 구간에 대한 확률을 계산할 수 있다. 따라서 어떠한 값이 모평균으로부터 (예를들어) 95%확률 안에 있는지를 추론 할 수 있게 된다. 아래는 표준정규분포의 평균인 0으로부터 어떠한 값이 포함될 확률이 95%인 지점을 나타내고 있다.

이를 바탕으로 앞서 실험을 통해 주어진 표본의 평균이 해당 구간안에 속하게 된다면, 그 표본의 평균으로 부터 앞 뒤로 동일한 거리에 정규분포의 평균, 즉, 모집단의 평균 또한 속하게 된다. 따라서 여러번의 표본 추출 없이 단 한번의 sampling으로 부터 모집단을 추론할 수 있게 된 것이다. 이때 표현한 거리는 확률분포에서의 거리이므로 확률이라고 나타낼 수 있다. 결과적으로 CLT이론을 통해 추출된 표본의 평균으로 부터 95%의 거리, 확률안에 모수인 모집단의 평균이 속해 있음을 추정할 수 있다.

댓글남기기