๐ ํต๊ณ์ ์ผ๋ก ๊ผญ ์์์ผ ํ ๊ฐ๋ (๊ธฐ์ด)์ธ CLT - ์ค์ฌ๊ทนํ์ ๋ฆฌ์ ๋ํด์ ์ง๊ณ ๋์ด๊ฐ๋ณด์!
concepts> * ์ฉ์ด ์ ํํ (terminology)
๐ โ sample ๋ฐ์ดํฐ ์๊ฐ ๋ง์์ง์๋ก โกsample์ ํ๊ท ์ โข๋ชจ์ง๋จ์ ๊ด๊ณ์์ด โฃ์ ๊ท๋ถํฌ์ ๊ทผ์ฌํ ํํ๋ก ๋ํ๋๋ค
- ์์ธํ ๋ณด์ -
โ sample ๋ฐ์ดํฐ ์๊ฐ ๋ง์์ง์๋ก
๐๐พโ๏ธ sample size๋ ์ต์ 30์ด์ด์ผ ํ๋ค
โกsample์ ํ๊ท
๐๐พโ๏ธ sample์ ํ๊ท ์ ๊ตฌํ ์ ์๋ ๋ถํฌ(๋ชจ์ง๋จ)์ฌ์ผ ํ๋ค (๊ทผ๋ฐ cauchy ๋ถํฌ๋ฅผ ์ ์ธํ๊ณ ๋ ๊ฑฐ์ ์๋ค ๋ณด๋ฉด ๋จ!)
(sample์ ํ๊ท = sample ๋ด sample size ๊ฐ์๋งํผ ์๋ data๋ค์ ํ๊ท )
โข๋ชจ์ง๋จ์ ๊ด๊ณ์์ด
๐๐พโ๏ธ ๋ชจ์ง๋จ์ด ์ด๋ค ๋ถํฌ์ด๋ ์๊ด์ด ์๋ค. ๋ฌด์กฐ๊ฑด ๋ชจ๋ ๋ถํฌ ๋ค ํด๋น๋๋ theorem
โฃ์ ๊ท๋ถํฌ
๐๐พโ๏ธ normally distributed๋๋ sample mean! ์ ๊ท๋ถํฌ ์ข ๋ชจ์์ ํํ๋ฅผ ๋ฌด์กฐ๊ฑด ๋!
๐ ํ์ฉ?
โ ๊ทธ ์ด๋ค ๋ชจ์ง๋จ ๋ถํฌ์ด๋ , ๋ถํฌ ์ข ๋ฅ์ ์๊ด์์ด sample ํ๊ท ์ ๋ฌด์กฐ๊ฑด์ ์ผ๋ก normally distributed๋จ!
(๋ชจ์ง๋จ ๋ถํฌ์ ์ ๊ฒฝ ์ธ ํ์ ์์)
โ ์ฆ! mean's normal distribution์ผ๋ก ์ ๋ขฐ๊ตฌ๊ฐ, t-test, ANOVA ๋ฑ๋ฑ sample mean์ ์ด์ฉํ๋ ๋ค์ํ statistical tests์ ์ ์ฉ ๊ฐ๋ฅ!
๐ ์ฃผ์!
โ
๋ชจ์ง๋จ์์ sampling์ ํ ๋ sample ๋ด์ data ๊ฐ์๋ฅผ sample size๋ผ๊ณ ๋ถ๋ฆ! ๋ช ๋ฒ samplingํ๋ ์ง๋ฅผ ๋งํ๋ ๊ฒ ์๋๋ค.
(ํด๋น sample ๋ด์ size ์๋ฅผ ๋๋ฆด์๋ก sample๋ด data์ mean์ ๋ถํฌ๊ฐ ์ ๊ท๋ถํฌ๋ฅผ ๋ณด์ธ๋ค๋ ๋ป)
๐ sample์ด ๊ฐ์ถ์ด์ผ ํ ์กฐ๊ฑด๋ค
โ ๋ณต์๋๋ค์ถ์ถ์ ๊ฒฐ๊ณผ๋ก ์ป์ด์ง sample๋ค์ด์ด์ผ ํ๋ค
โ sample์ ๋ชจ์ง๋จ์ ๋ํํด์ผ ํจ
โ ๊ฒฐ๋ก ์ ๋ด๋ฆฌ๊ธฐ์ ์ถฉ๋ถํ๊ธฐ ์ํด sample size๋ 30๋ณด๋ค ๊ฐ๊ฑฐ๋ ์ปค์ผ ํ๋ค
โ sample ๋ด์ replacement๊ฐ ์๋ค๋ฉด ๋ชจ์ง๋จ์ 10% ์ด๋ด๋ง sample์ ํฌํจ๋์ด์ผ ํ๋ค (sample size๊ฐ ๋ ๋๋ฌด ํฌ๋ค๋ฉด ์๋ก ์ํฅ์ ์ฃผ๋ sample๋ค์ด ์์ฌ ์์ ๊ฐ๋ฅ์ฑ์ ๋ฐฐ์ ํ ์ ์๊ธฐ ๋๋ฌธ!)
w/code
Q. ์ฑ๊ณตํ๋ฅ 0.5๋ฅผ ๊ฐ๋ ์ฌ๊ฑด์ 6๋ฒ ์คํํ๋ ์ดํญ๋ถํฌ(binomial distribution)๊ฐ ๋ชจ์ง๋จ์ด๋ผ ๊ฐ์ ํ์. ์ด ์ดํญ๋ถํฌ์ ํ๋ฅ ๋ณ์ ํ๊ท (์ฆ ๋ชจํ๊ท )์ ์ถ์ ํ๊ณ ์ถ๋ค. ๋ชจ์ง๋จ์ ๋ํ ์ ๋ณด๋ฅผ ๋ชจ๋ฅธ๋ค๋ ๊ฐ์ ํ, ํด๋น ๋ชจ์ง๋จ์์ x๊ฐ์ sample์ ๋ฝ๋ sampling์ 10,000๋ฒ์ ๋ฐ๋ณตํ๋ค(๋ณต์์ถ์ถ). ๊ทธ ๊ฒฐ๊ณผ x๊ฐ์ด ์ฆ๊ฐํ ์๋ก x๊ฐ์ sample ํ๊ท (sample์ ํ๋ฅ ๋ณ์ X ํ๊ท ๊ฐ)์ด ์ ์ ์ ๊ท๋ถํฌ ๋ชจ์์ ๋๋ ์ง ์ฆ๋ช ํด๋ผ.
(๋จ, sample๋ค์ ์๋ก indepedentํ๋ค ๊ฐ์ & sample ๋ด์ replacement ํ์ฉ)
A.
1> ์๊ฐํ ํจ์ ๋ง๋ค๊ธฐ
def viz_CLT_binomial(size):
sample_means = []
for x in range(0, 10000):
coinflips = np.random.binomial(n = 6, p = 0.5, size = size) # binomial distribution
sample_means.append(coinflips.mean())
pd.DataFrame(sample_means).hist(color = '#4000c7', bins=1000);
2> sample size๋ฅผ ์ต์ size๊ฐ ์ ์ฉ๋๋ 30๋ถํฐ 300, 3000, 300000๊น์ง ์ฐจ๋ก๋ก ์ ์ฉํด ์๊ฐํ ํด๋ณธ๋ค
for s in [30, 300, 3000, 300000]:
viz_CLT_binomial(s)
3> ๊ฒฐ๊ณผ
- (์ผ์ชฝ ์๋ถํฐ ์๊ณ๋ฐฉํฅ์ผ๋ก) size๊ฐ 30์ผ ๋, 300์ผ ๋, 3000์ผ ๋, 300000์ผ ๋์ sample mean ๋ถํฌ-
4> ๊ฒฐ๊ณผ ํด์
๐ ์ฑ๊ณตํ๋ฅ 0.5๋ฅผ ๊ฐ๋ ์ฌ๊ฑด์ 6๋ฒ ์ํํ๋ ์ดํญ๋ถํฌ์์ ํ๊ท ์ถ์ ์ ๊ฐ๋ ํ ์ ์๋ค. ์ฐ๋ฆฌ๊ฐ ์ดํญ๋ถํฌ์ธ ์ง ๋ชจ๋ฅธ๋ค ํ๋๋ผ๋ ๋จ์ํ sample size๋ฅผ ์ฆ๊ฐ์ํค๋ฉด์ sampling์ ํด ๋ถํฌ๋ก ๋ํ๋ธ ๊ฒฐ๊ณผ, ์ฐ๋ฆฌ๋ ๋ชจํ๊ท ์ด 3์ ๊ฐ๊น๋ค๋ ๊ฒ์ CLT์ ์ํด ์ถ์ ํ ์ ์๋ค.
(์ค์ ๋ก ํ๋ฅ 0.5๋ฅผ ๊ฐ๋ ์ฌ๊ฑด์ 6๋ฒ ์ํํ๋ ๋ถํฌ์ด๋ฏ๋ก ํ๋ฅ ๋ณ์ ํ๊ท ์ 3์ ๊ฐ๊น์ด ์ดํญ๋ถํฌ - ๋ชจ์ง๋จ์ด๋ค!)
๐ ๋ํ ์ฐ๋ฆฌ๋ sample mean์ ๋ถํฌ๊ฐ ์ข ๋ชจ์์ ๋๋ ์ ๊ท๋ถํฌ๋ฅผ ํ์ฑํจ์ ์๊ฐํ ๊ฒฐ๊ณผ๋ฅผ ํตํด์ ์ ์ ์๋ค
๐ ์ด๋ ๋ฏ ์ฐ๋ฆฌ๋ CLT์ ์ํด ๋ชจ๋ฅด๋ ๋ชจ์ง๋จ์ ํ๊ท ์ approximateํ ์ ์๋ค!
๐ ์ถ๊ฐ์ ์ผ๋ก, ์ฐ๋ฆฌ๋ ๋ชจ์ง๋จ์ ๋ํ ๋ถํฌ๋ ๋ชฐ๋์ง๋ง, ์ด์ sampling์ ํตํด ์ ๊ท๋ถํฌ๋ฅผ ์ฐพ์๋์ผ๋ฏ๋ก ํด๋น ๋ถํฌ๋ฅผ ๊ฐ์ง๊ณ ๋ค์ํ statistical tests๋ฅผ ์งํํ ์ ์์! ๐
(์ดํญ๋ถํฌ ์ค๋ช ์ ์ถํ ํฌ์คํ !)
* ์ถ์ฒ1) https://towardsdatascience.com/central-limit-theorem-a-real-life-application-f638657686e1
* ์ถ์ฒ2) KhanAcademyโ๏ธ https://www.youtube.com/watch?v=JNm3M9cqWyc
* ์ถ์ฒ3) STATQUEST๐ https://www.youtube.com/watch?v=YAlJCEDH2uY
'Statistics > Concepts(+codes)' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
distributionใpoisson distribution (ํฌ์์ก๋ถํฌ) (0) | 2022.05.06 |
---|---|
distributionใbinomial distribution (์ดํญ๋ถํฌ) (0) | 2022.05.06 |
Law of Large Numbers (ํฐ ์์ ๋ฒ์น; LLN) (0) | 2022.05.05 |
f distribution (0) | 2022.05.04 |
Two-Samples ๐2 test (0) | 2022.05.03 |
๋๊ธ