Statistics/Concepts(+codes)

Central Limit Theorem (CLT; 중심극한정리)

metamong 2022. 5. 5.

🐕 통계적으로 꼭 알아야 할 개념(기초)인 CLT - 중심극한정리에 대해서 짚고 넘어가보자!

concepts> * 용어 정확히 (terminology)

🐕 ①sample 데이터 수가 많아질수록 ②sample의 평균은 ③모집단에 관계없이 ④정규분포에 근사한 형태로 나타난다

- 자세히 보자 -

①sample 데이터 수가 많아질수록

🙆🏾‍♀️ sample size는 최소 30이어야 한다

②sample의 평균

🙆🏾‍♀️ sample의 평균을 구할 수 있는 분포(모집단)여야 한다 (근데 cauchy 분포를 제외하고는 거의 없다 보면 됨!)

(sample의 평균 = sample 내 sample size 개수만큼 있는 data들의 평균)

③모집단에 관계없이

🙆🏾‍♀️ 모집단이 어떤 분포이든 상관이 없다. 무조건 모든 분포 다 해당되는 theorem

④정규분포

🙆🏾‍♀️ normally distributed되는 sample mean! 정규분포 종 모양의 형태를 무조건 띔!

🐕 활용?

★ 그 어떤 모집단 분포이든, 분포 종류에 상관없이 sample 평균은 무조건적으로 normally distributed됨!

(모집단 분포에 신경 쓸 필요 없음)

★ 즉! mean's normal distribution으로 신뢰구간, t-test, ANOVA 등등 sample mean을 이용하는 다양한 statistical tests에 적용 가능!

🙉 주의!

★ 모집단에서 sampling을 할 때 sample 내의 data 개수를 sample size라고 부름! ~~몇 번 sampling하는 지~~를 말하는 게 아니다.

(해당 sample 내의 size 수를 늘릴수록 sample내 data의 mean의 분포가 정규분포를 보인다는 뜻)

🙉 sample이 갖추어야 할 조건들

★ 복원랜덤추출의 결과로 얻어진 sample들이어야 한다

★ sample은 모집단을 대표해야 함

★ 결론을 내리기에 충분하기 위해 sample size는 30보다 같거나 커야 한다

★ sample 내의 replacement가 없다면 모집단의 10% 이내만 sample에 포함되어야 한다 (sample size가 또 너무 크다면 서로 영향을 주는 sample들이 섞여 있을 가능성을 배제할 수 없기 때문!)

w/code

Q. 성공확률 0.5를 갖는 사건을 6번 실행하는 이항분포(binomial distribution)가 모집단이라 가정하자. 이 이항분포의 확률변수 평균 (즉 모평균)을 추정하고 싶다. 모집단에 대한 정보를 모른다는 가정 하, 해당 모집단에서 x개의 sample을 뽑는 sampling을 10,000번을 반복한다(복원추출). 그 결과 x값이 증가할 수록 x개의 sample 평균(sample의 확률변수 X 평균값)이 점점 정규분포 모양을 띄는 지 증명해라.

(단, sample들은 서로 indepedent하다 가정 & sample 내의 replacement 허용)

1> 시각화 함수 만들기

def viz_CLT_binomial(size):
    sample_means = []

    for x in range(0, 10000):
      coinflips = np.random.binomial(n = 6, p = 0.5, size = size) # binomial distribution
      sample_means.append(coinflips.mean()) 
    
    pd.DataFrame(sample_means).hist(color = '#4000c7', bins=1000);

2> sample size를 최소 size가 적용되는 30부터 300, 3000, 300000까지 차례로 적용해 시각화 해본다

for s in [30, 300, 3000, 300000]:
	viz_CLT_binomial(s)

3> 결과

- (왼쪽 위부터 시계방향으로) size가 30일 때, 300일 때, 3000일 때, 300000일 때의 sample mean 분포-

4> 결과 해석

🔍 성공확률 0.5를 갖는 사건을 6번 시행하는 이항분포에의 평균 추정을 가늠할 수 있다. 우리가 이항분포인 지 모른다 하더라도 단순히 sample size를 증가시키면서 sampling을 해 분포로 나타낸 결과, 우리는 모평균이 3에 가깝다는 것을 CLT에 의해 추정할 수 있다.

(실제로 확률 0.5를 갖는 사건을 6번 시행하는 분포이므로 확률변수 평균은 3에 가까운 이항분포 - 모집단이다!)

🔍 또한 우리는 sample mean의 분포가 종 모양을 띄는 정규분포를 형성함을 시각화 결과를 통해서 알 수 있다

🔍 이렇듯 우리는 CLT에 의해 모르는 모집단의 평균을 approximate할 수 있다!

🔍 추가적으로, 우리는 모집단에 대한 분포는 몰랐지만, 이제 sampling을 통해 정규분포를 찾아냈으므로 해당 분포를 가지고 다양한 statistical tests를 진행할 수 있음! 👍

(이항분포 설명은 추후 포스팅!)

* 출처1) https://towardsdatascience.com/central-limit-theorem-a-real-life-application-f638657686e1

* 출처2) KhanAcademy☀️ https://www.youtube.com/watch?v=JNm3M9cqWyc

* 출처3) STATQUEST🌝 https://www.youtube.com/watch?v=YAlJCEDH2uY

저작자표시 비영리 변경금지

'Statistics > Concepts(+codes)' 카테고리의 다른 글

distribution》poisson distribution (포아송분포) (0)	2022.05.06
distribution》binomial distribution (이항분포) (0)	2022.05.06
Law of Large Numbers (큰 수의 법칙; LLN) (0)	2022.05.05
f distribution (0)	2022.05.04
Two-Samples 𝜒2 test (0)	2022.05.03

Central Limit Theorem (CLT; 중심극한정리)

concepts> * 용어 정확히 (terminology)

w/code

'Statistics > Concepts(+codes)' 카테고리의 다른 글

댓글

티스토리툴바