๐ง ์ฐ๋ฆฌ๋ ํ sample ์ง๋จ์ ํ๊ท ์ด ๋ชจ์ง๋จ์ ํ๊ท ์ด ๊ฐ์ ์ง๋ฅผ ๊ฒ์ ํ๊ณ (one-sample t-test)
T-test ๐ ใOne-sample T-test (w/ python code)ใ
๐ ์ ๋ฒ ์๊ฐ์ statistics์์ ๋นผ๋์ ์ ์๋ '๊ฐ์ค๊ฒ์ TEST - Hypothesis Test'์ ๋ํด ๋ฐฐ์ ๋ค. Hypothesis Test: H0 & Ha - concepts 1. Hypothesis Testing? → Null Hypothesis(H0) ๐โ๏ธ 1โถ Creat..
sh-avid-learner.tistory.com
๐ง ๋ sample ์ง๋จํ๊ท ๋ผ๋ฆฌ์ ์ฐจ์ด๊ฐ ์๋ ์ง ์๋ ์ง๋ ๊ฒ์ ํ๋ค (two-samples 'independent' t-test)
T-test ๐ใTwo-samples 'independent' T-test (w/python code)ใ
โ ๊ฐ์ค๊ฒ์ hypothesis test์ ๋ํด์ ๋ฐฐ์ ๊ณ โก ๊ทธ ์ค ๋ํ์ ์ธ One-sample T-test์ ๋ํด์ ๋ฐฐ์ ๋ค. T-test ๐ ใOne-sample T-test (w/ python code)ใ ๐ ์ ๋ฒ ์๊ฐ์ statistics์์ ๋นผ๋์ ์ ์๋ '๊ฐ์ค..
sh-avid-learner.tistory.com
โ ๊ทธ๋ผ ๊ณผ์ฐ ์ธ ๊ฐ ์ด์์ ์ง๋จ์? โ
A. ANOVA ํ์ฉ!
ANOVA(ANalysis Of VAriance)
→ ํ๊ท ๋น๊ต์ ๊ดํ ๊ฒ์ ์ด๋ค
→ ๋จ์ํ 2๊ฐ ์ด์์ ๋ชจ์ง๋จ์ ๋ชจํ๊ท ์ ์ฐจ์ด๊ฐ ์๋๊ฐ๋ฅผ ๋ณผ ์ ์๋ ๊ฒ์ ์ผ๋ก, ์ผ๋ง๋ ์ฐจ์ด๊ฐ ์๋ ์ง ๊ตฌ์ฒด์ ์ผ๋ก ๊ฒ์ ํ๊ณ ์ถ์ ๋๋ (1)์ผ๋จ ANOVA๋ก ์ฐจ์ด๊ฐ ์์์ ๋ณด์ด๊ณ , (2)์ฌํ๊ฒ์ ์ ํตํด ์ถ๊ฐ์ ์ธ ๊ฒ์ ์ ์ค์ํจ!
→ ํ๊ท ๋น๊ตํ๋ ANOVA์ ์๋ฆฌ?
A. '๋ณ๋์ฑ' ์ด์ฉ
(๊ทธ๋ฃน๋ณ ํ๊ท ์ด ๋ค๋ฅด๋ฉด ๋ค๋ฅธ๋งํผ ๊ทธ๋ฃน๋ณ ํ๊ท ์ ๋ณ๋์ฑ์ด ํฌ๋ค๋ ์ฌ์ค์ ์ด์ฉํ ๊ฒ์)
โ ํ๋ณธ์ ๋ณ๋์ฑ ์ ๋ณด๋ฅผ ์ด์ฉํด์ 2๊ฐ ์ด์ ์ง๋จ์์ ํ๊ท ๋ค์ ๊ดํ ์ถ๋ก ์ ํ๋ ๊ฒ โ
<์ฉ์ด ์๊ณ ๊ฐgi>
๐ factor(์์ธ) = ๋ชจ์ง๋จ(๊ทธ๋ฃน)์ ๊ตฌ๋ถํ๋ ๊ธฐ์ค
๐ treatment(์ฒ๋ฆฌ) = ์์ธ์ ์ํด ๊ตฌ์ฑ๋๋ ๊ฐ ๊ทธ๋ฃน๋ณ ๋ชจ์ง๋จ
๐งโ๏ธ ์ฌ๊ธฐ์ 1๊ฐ์ ์์ธ์ ์ํด ๊ตฌ๋ถ๋๋ ๋ชจ์ง๋จ๋ค์ธ์ง, 2๊ฐ์ ์์ธ์ ์ํด ๊ตฌ๋ถ๋๋ ์ง์ ๋ฐ๋ผ One-Way ANOVA, Two-Way ANOVA๋ก ๋๋จ!
(+) Multiple Comparison์ด ์๋๋ ์ด์ ?
๐งโ ์ธ ๊ฐ ์ด์์ ์ง๋จ ๋น๊ต๋ฅผ ํ ๋, ANOVA๊ฐ ์๋๋ผ ๊ฐ๊ฐ ๋ ๊ทธ๋ฃน์ฉ 'two-samples ind t-test'๋ฅผ ์ํํด์ผ ํ๋ ๊ฑฐ ์๋๊ฐ๋ผ๊ณ ์๊ฐ ๊ฐ๋ฅ
๐งโ ํ์ง๋ง! multiple comparsion ๋ฐฉ๋ฒ์ ์ฌ์ฉํด์๋ ์๋๋ค
๐ ๊ทธ ์ด์ ๋ฅผ ์ํ ์์ ํตํด ์์๋ณด์
→ 3๊ฐ์ ๊ทธ๋ฃน์ด ์๋ค๊ณ ๊ฐ์ ํ์. ์ฌ๊ธฐ์ ๊ฐ ๊ทธ๋ฃน๋ณ๋ก ํต๊ณ์ ์๋ฌ๊ฐ ๋ ํ๋ฅ ์ α๋ผ๊ณ ํ๋ฉด
โ ํ ๊ทธ๋ฃน์์ ์๋ฌ๊ฐ ๋์ง ์์ ํ๋ฅ (1-α)
โก 3๊ฐ ๋ชจ๋ ๊ทธ๋ฃน์์ ์๋ฌ๊ฐ ๋์ง ์์ ํ๋ฅ (1-α)^3
โข ์ ์ด๋ ํ ๊ณณ์์ ์๋ฌ๊ฐ ๋์ง ์์ ํ๋ฅ 1-(1-α)^3
→ ์ด m๊ฐ์ ๊ทธ๋ฃน์ด ์๋ค๊ณ ํ์ ๋ 1-(1-α)^m ≤ mα๊ฐ ์๋ ค์ ธ ์๋ค
๐ ๋ฐ๋ผ์ ์ฐ๋ฆฌ๋ ๊ทธ๋ฃน ์๊ฐ ์ฆ๊ฐํ ์๋ก ์๋ฌ๋ ์ปค์ง๋ค๋ ์ ! ์ฆ ๋น๊ตํ๋ ์ง๋จ์ ์๊ฐ ๋ง์์ง์๋ก ํต๊ณ์ ์๋ฌ๊ฐ ๋ ํ๋ฅ ๋ ์ปค์ง๋ฏ๋ก
๐ ANOVA๋ฅผ ํตํด ์ฌ๋ฌ ๊ฐ์ ๊ทธ๋ฃน์ ํ๊บผ๋ฒ์ ๋น๊ตํด์ผ ํ๋ค!
One-way ANOVA
One-way ANOVA ๊ฐ์ ๋ฐ ์ํ ์ ์ฐจ>
๊ฐ์ โ > ๋ชจ์ง๋จ์ ์ ๊ท๋ถํฌ๋ฅผ ๋ฐ๋ฅธ๋ค
๊ฐ์ โก> ๋ฑ๋ถ์ฐ์ฑ - treatment์ ๋ถ์ฐ์ด ๋ชจ๋ ๋์ผํ๋ค (=๋ฐ์๋ณ์๋ค์ด treatment ๋ด์์ ๊ฐ์ง๋ ๋ณ๋์ฑ์ ๋ชจ๋ ์ผ์ )
๊ฐ์ โข> 1๊ฐ์ factor์ ์ํด k๊ฐ์ treatment๋ก ๋ถ๋ฅ๋์ด ์๋ค
"The ANOVA test has important assumptions that must be satisfied in order for the associated p-value to be valid.
๐ The samples are independent.
๐ Each sample is from a normally distributed population.
๐ The population standard deviations of the groups are all equal. This property is known as homoscedasticity."
โ k๊ฐ์ ๋ชจํ๊ท ์ด ๋ชจ๋ ๋์ผํ ์ง, ์๋ ์ง ๊ฒ์ โ
(์ฌ๊ธฐ์ ๊ฐ treatment๋ณ ์๋ฃ ์์ธ ๋ฐ๋ณต์(n)์ ๊ผญ ๋์ผํ ํ์๋ ์๋ค)
ex)
→ 1๊ฐ์ factor์ ์ํด ๊ตฌ๋ถ๋๋ ์๋ก ๋ค๋ฅธ 4๊ฐ์ ๋ชจ์ง๋จ(4๊ฐ์ treatment)์ด ์กด์ฌํ๋ค
→ ์ด ๋ ๊ฐ ๋ชจ์ง๋จ๋ณ ํ๋ณธ์ ์ถ์ถ!
→ ๊ฐ ๋ชจ์ง๋จ๋ณ ํ๊ท ์ ๋ชจ๋ 0์ผ๋ก ๋์ผ์ ์์ ๋๊ณ ์ถ๋ฐ
→ ๊ฐ ํ๋ณธ์ ํ๊ท ์ ๋ชจํ๊ท ๊ณผ ๋์ผํ ๊ฐ ๊ทผ์ฒ์ ์๋ค๋ ๊ฑธ ์ ์ ๋ก ์งํ
→ ์ด ๋ ํ ๋ชจ์ง๋จ์ ํ๋ณธ ํ๊ท ์ด ์ ๋ํ ๋ค๋ฅผ ๊ฒฝ์ฐ ํด๋น ๋ชจ์ง๋จ์ผ๋ก ์ธํด ์ ์ฒด ํ๋ณธํ๊ท ์ ๋ณ๋์ฑ์ด ์ปค์ง!
→ ์ฆ ํ๋ณธ์ ๋ณ๋์ฑ์ ์ง๋จ๋ณ๋ก ๋ชจ๋ ๊ตฌํด ๋ณ๋์ฑ์ด ํฌ๋ค๋ฉด ๋ชจํ๊ท ์ด ๋ชจ๋ ๊ฐ์ ๊ฒ์ ์๋๋ค๋ผ๊ณ ๊ฒฐ๋ก ๋ด๋ฆผ
์ ๊ณฑํฉ> ๋ณ๋์ฑ ๊ตฌํ๊ธฐ
(ํด๋น ์์์๋ k๊ฐ์ treatment, ๊ฐ treatment ๋ด๋ถ์๋ n๊ฐ์ ์๋ฃ)
๐งต R-squared์์ ๋ฐฐ์ด ์ ์ด ์๋ ์!
โ ์ด์ ๊ณฑํฉ(SST; Sum of Squares Total): ์ ์ฒด๊ฐ ํ๋์ ๊ทธ๋ฃน์ด๋ผ ์๊ฐํ๊ณ ์ ์ฒด์ ํ๊ท ์ผ๋ก๋ถํฐ ๊ฐ data๊ฐ ์ด๋๋งํผ ๋จ์ด์ ธ ์๋ ์ง ๊ฐ ํธ์ฐจ์ ์ ๊ณฑ์ ๋ํ ๊ฒ (treatment ๊ตฌ๋ถ x) - ๊ทธ๋ฃน๊ณผ ๋ฌด๊ดํ๊ฒ ์ ์ฒด ์๋ฃ์ ๋ณ๋์ฑ ์ธก์
โก ์ค์ฐจ์ ๊ณฑํฉ(SSE; Sum of Squares Error) <๊ทธ๋ฃน ๋ด ๋ณ๋>: ๊ฐ ๊ทธ๋ฃน(treatment) ๋ด์์์ ๋ณ๋ ์ธก์ , ๊ฐ ๊ทธ๋ฃน ๋ด์ data๋ค์ด ํด๋น ๊ทธ๋ฃน์ ํ๊ท ์ผ๋ก๋ถํฐ ์ผ๋ง๋ ๋จ์ด์ ธ ์๋ ์ง ํด๋น ํธ์ฐจ์ ์ ๊ณฑํฉ
โข ์์ธ์ ๊ณฑํฉ(SSTR; Sum of Square TReatment) <๊ทธ๋ฃน ๊ฐ ๋ณ๋>: ๊ฐ ๊ทธ๋ฃน๋ณ ํ๊ท ์ ๋ณ๋ ์ธก์ - ๊ฐ ๊ทธ๋ฃน์์ ๋์จ ๊ทธ๋ฃน๋ณ ํ๊ท ์ด ์ ์ฒด data์ ํ๊ท ์ผ๋ก๋ถํฐ ์ผ๋ง๋ ๋จ์ด์ ธ ์๋ ์ง ๊ทธ๋ฃน๋ณ ํธ์ฐจ์ ์ ๊ณฑํฉ (SSTR์ ํฌ๊ธฐ๋ก ์ง๋จ๋ณ ๋ชจํ๊ท ์ ์ฐจ์ด ํ์ ๊ฐ๋ฅ)
๐งโ๏ธ ์ฆ! SSTR์ด ํฌ๋ค๋ฉด ๋ชจํ๊ท ์ ๊ฐ์ง ์์ / ์๋ค๋ฉด ๋ชจํ๊ท ์ ๊ฐ์
(๋ชจํ๊ท ์ด ๋ชจ๋ ๊ฐ๋ค๋ ๊ฐ์ ํ์ SSTRํฌ๊ธฐ๋ฅผ ์ฐพ์ - ํ๋ณธ์ ๊ด์ฐฐํ๊ธฐ์ ์ ํํ 0์ ์๋์ด)
๐บ ์ฐ๋ฆฌ๋ SSE์ SSTR๊ฐ์ ๋น - ์ฆ, ๊ทธ๋ฃน ๋ด ๋ณ๋์ '๋นํด' ๊ทธ๋ฃน ๊ฐ ๋ณ๋์ ์๋์ ํฌ๊ธฐ๊ฐ ํฌ๊ณ ์์ ์ง(=์๋ ์๋ฃ๊ฐ ๊ฐ์ง๋ ๋ณ๋(๊ทธ๋ฃน ๋ด ๋ณ๋)์ ๋นํด์ ๊ทธ๋ฃน ๊ฐ ๋ณ๋์ด ์๋์ ์ผ๋ก ์ถฉ๋ถํ ํฐ ์ง) - ์๋์ ํฌ๊ธฐ ๋น๊ต๋ฅผ ์ด์ฉํด์ ๊ฒ์ ํ๋ค (๊ทธ๋ฃน๋ณ ๋ชจํ๊ท ๋ชจ๋ ๋์ผํ๊ฒ ๋๊ณ ๊ฐ์ )
๊ฒ์ ์ ์ฐจ>
1> ๊ฐ์ค
→ ๊ท๋ฌด๊ฐ์ค H0) '์ง๋จ ๊ฐ ํ๊ท ์ฐจ์ด๊ฐ ์๋ค'
→ ๋๋ฆฝ๊ฐ์ค Ha) '์ง๋จ ๊ฐ ํ๊ท ์ฐจ์ด๊ฐ ์กด์ฌํ๋ค' = ์ฆ, ํด๋น factor์ ์ฒ๋ฆฌํจ๊ณผ๊ฐ ์กด์ฌํ๋ค
๐โ๏ธ ์ฃผ๋ก ์ฐ๋ฆฌ๋ ํ ๋ชจ์ง๋จ์์ ํด๋น factor์ ์ํด ๋ ๊ฐ ์ด์์ ์ง๋จ์ผ๋ก ๋๋ ์ ์๋์ง, factor์ ์ํฅ ํจ๊ณผ ์ ๋ฌด๋ฅผ ์์๋ณด๊ธฐ ์ํด ANOVA ์ํํจ
2> ๊ฒ์ ํต๊ณ๋ ๊ณ์ฐ
โ SSE์ SSTR์ ํ๊ท ์ ๊ณฑ์ ๊ตฌํ๋ค(๊ฐ๊ฐ์ ์์ ๋๋ก ๋๋)
→ MSE = SSE/(nk-k)
→ MSTR = SSTR/(k-1) (๊ทธ๋ฃน๊ฐ ๋ณ๋์ด๋ฏ๋ก k๊ฐ์ treatment๋ง ์์ ๋ ๊ณ์ฐ์ ๊ณ ๋ คํ๋ฉด ๋จ)
โก ๊ทธ๋ฃน๋ณ ๋ชจํ๊ท ์ด ๋ชจ๋ ๊ฐ๋ค๋ฉด? MSE โ MSTR
โข ๊ทธ๋ฃน๋ณ ๋ชจํ๊ท ์ด ๋ชจ๋ ๊ฐ์ง ์๋ค๋ฉด? MSTR โซ MSE
→ MSE๋ ๊ทธ๋ฃน๋ณ ๋ชจํ๊ท ์ด ๊ฐ๊ณ ๋ค๋ฆ๊ณผ ๊ด๊ณ ์์ด ํญ์ unbiasedํ์ง๋ง (treatment ๋ด์์ ๊ฐ์ง๋ ๋ณ๋์ฑ์ ๋ชจ๋ ์ผ์ ํ๋ค๊ณ ๊ฐ์ ํจ)
→ MSTR์ ๊ฒฝ์ฐ ์ง๋จ ๊ฐ ํ๊ท ์ฐจ์ด๊ฐ ์์ ๊ฒฝ์ฐ์๋ง (์ฆ ๊ท๋ฌด๊ฐ์ค์ด ์ฐธ์ผ ๊ฒฝ์ฐ) unbiasedํ๋ค. ์ง๋จ ๊ฐ ํ๊ท ์ฐจ์ด๊ฐ ์ฌํ ์๋ก, ๋น์ฐํ ๊ทธ๋ฃน๊ฐ ๋ณ๋์ ์ปค์ง๋ฏ๋ก MSE๋ณด๋ค ์๋ฑํ ์ปค์ง๊ฒ ๋๋ค
โฃ ์ด ๋ ์ฐ๋ฆฌ๋ MSTR/MSE ratio๊ฐ์ F[k-1, nk-k] ([]์์ ๊ฐ๊ฐ์ ์์ ๋๋ฅผ ๋ปํจ)๋ก ๋๊ณ ์ (2)์ ๊ฒฝ์ฐ F๋ 1์, (3)์ ๊ฒฝ์ฐ F๋ ๊ณ์ ์ปค์ง๊ฒ ๋๋ค.
โค ์ด ๋์ F๊ฐ (ratio)์ F๋ถํฌ๋ฅผ ๋ฐ๋ฅด๊ฒ ๋๋ค (** F๋ถํฌ๋ ์ถํ ํฌ์คํ !)
3> F๋ถํฌ๋ก๋ถํฐ์ ์ ์ํ๋ฅ ๊ณ์ฐ
๐ ์ ์ํ๋ฅ = '๊ท๋ฌด๊ฐ์ค H0๊ฐ ์ฌ์ค์ผ ๋, ๊ฒ์ ํต๊ณ๋ X(MSTR/MSE ~ F[k-1, nk-k])์์, x0(ํ๋ณธ์๋ฃ๋ก๋ถํฐ ๊ณ์ฐ๋ ๊ฒ์ ํต๊ณ๋ ๊ฐ)๋ณด๋ค ๋ 'ํฐ' ๊ฐ์ด ๋์ฌ ํ๋ฅ '
โป <์ฃผ์> ์ฌ๊ธฐ์ ์ฃผ์ํ ๊ฑด, x0์ ๋๋ฆฝ๊ฐ์ค Ha ๋ฐฉํฅ์ 'ํญ์ ์ค๋ฅธ์ชฝ' (์ค๋ฅธ๊ผฌ๋ฆฌ ๋ฐฉํฅ) โป
(MSE๋ ํฌ๊ธฐ๊ฐ ์ผ์ ํ๋ฐ, MSTR์ ๊ฒฝ์ฐ ๋ณ๋์ฑ์ด ์๊น์ ๋ฐ๋ผ ๋ ์ปค์ง ์ ๋ฐ์ ์๊ธฐ์ - ์์์ง์ง ๋ชปํจ)
4> ๊ฒ์
๐ ์ 3>์์ ๊ณ์ฐ๋ ์ ์ํ๋ฅ (p-value)์ด ์ฃผ์ด์ง ์ ์์์ค α๋ณด๋ค ์์ผ๋ฉด ๊ท๋ฌด๊ฐ์ค ๊ธฐ๊ฐ (์๋ค๋ ๊ฑด ์ ์์์ค์ ํด๋นํ๋ F statistics๊ฐ α๋ณด๋ค ํฌ๋ค๋ ๋ป)
ANOVA Table>
๐ ์ ๊ณฑํฉ ์ข ๋ฅ / ์์ ๋ / ํ๊ท ์ ๊ณฑํฉ ์ข ๋ฅ / ์ต์ข F๊ฐ
์์>
Q. 3๊ฐ์ง ํ์ ์ ์๋์ฐจ ํค๋๋ผ์ดํธ ๋์์ธ์ ๊ณ ๋ คํ๊ณ ์๋ค. ๋ผ์ดํธ์ ํจ๊ณผ๋ฅผ ๋น๊ตํ๊ธฐ ์ํ์ฌ, ๊ฐ ๋์์ธ์ ์ ์ฉํ ์ฐจ๋๋ณ๋ก ์์ 60KM์ ์๋์์ ์ฅ์ ๋ฌผ์ ์ธ์งํ๋ ๊ฑฐ๋ฆฌ(m)๋ฅผ 5๋ฒ์ฉ ๋ฐ๋ณตํ์ฌ ์ธก์ ํ์๋ค. ์ด ์๋ฃ๋ฅผ ํ ๋๋ก ๋ผ์ดํธ ์ข ๋ฅ์ ๋ฐ๋ผ ์ธ์ง๊ฑฐ๋ฆฌ์ ์ฐจ์ด๊ฐ ์๋ ์ง๋ฅผ ์ ์์์ค 1%๋ก ๊ฒ์ ํ๊ณ ์ ํ๋ค.
โฌ ์์ธ(factor) = ์๋์ฐจ ํค๋๋ผ์ดํธ ๋์์ธ
โฌ ์ฒ๋ฆฌ๋๋ treatment = A, B, C ์ด ์ธ ๊ฐ์ type
โฌ ๋ฐ์๋ณ์(์ด๋ค ๋์์ ๊ด์ฐฐํ๋ ์ง) = ์ฅ์ ๋ฌผ์ ์ธ์งํ๋ ๊ฑฐ๋ฆฌ (์ธ์ง๊ฑฐ๋ฆฌ)
A.
1> ๊ฐ์ค
→ ๊ท๋ฌด๊ฐ์ค H0: ํค๋๋ผ์ดํธ ์ข ๋ฅ๋ณ ํ๊ท ์ ์ง๊ฑฐ๋ฆฌ๋ ์ฐจ์ด๊ฐ ์์
→ ๋๋ฆฝ๊ฐ์ค Ha: ํค๋๋ผ์ดํธ ์ข ๋ฅ๋ณ ํ๊ท ์ ์ง๊ฑฐ๋ฆฌ๋ ์ฐจ์ด๊ฐ ์์
2> ๊ฒ์ ํต๊ณ๋ & ํต๊ณ๋์ ๋ถํฌ
→ ๊ท๋ฌด๊ฐ์ค์ด ์ฌ์ค์ผ ๋, X = MSTR/MSE ~ F[2,12]
→ ๊ฒ์ ํต๊ณ๋ x0๊ฐ = 28.23
3> ์ ์ํ๋ฅ & ์ ์์์ค ๊ฒ์ ๋ฐ ๊ฒฐ๊ณผ
→ ํด๋น p-value๋ P[X>28.23] = 2.9e-05๋ก ์ ์์์ค 0.01๋ณด๋ค ์์
→ ๊ท๋ฌด๊ฐ์ค์ด ๊ธฐ๊ฐ๋จ
4> ๊ฒฐ๋ก
→ ๊ท๋ฌด๊ฐ์ค์ด ๊ธฐ๊ฐ๋์์ผ๋ฏ๋ก ํค๋๋ผ์ดํธ ์ข ๋ฅ๋ณ ํ๊ท ์ ์ง๊ฑฐ๋ฆฌ๋ ์ฐจ์ด๊ฐ ์๋ค!
→ ์ฆ, ํค๋๋ผ์ดํธ ์ข ๋ฅ๊ฐ ์ ์ง๊ฑฐ๋ฆฌ๋ผ๋ ๊ฒ์ ์ค๋ช ํ ์ ์๋ ํ factor๊ฐ ๋ ์ ์๋ค๊ณ ๊ฒฐ๋ก ์ ๋ด๋ฆด ์ ์๋ค.
(+) ์์ ANOVA table
w/code
♠ scipy.stats.f_oneway ♠
https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.f_oneway.html
scipy.stats.f_oneway(*args, axis=0)
"Perform one-way ANOVA. The one-way ANOVA tests the null hypothesis that two or more groups have the same population mean. The test is applied to samples from two or more groups, possibly with differing sizes.'
์์>
Q. ์์ธ์ ๊ฐ๋ก์ ํํฉ ํต๊ณ์์ ๋ํฐ๋๋ฌด, ์ํ๋๋ฌด, ์๋ฒ์ฆ๋๋ฌด data๋ฅผ ์์งํด๋ณด์. ์์ธ์ ๊ตฌ๋ณ ๋ํฐ๋๋ฌด, ์ํ๋๋ฌด, ๊ทธ๋ฆฌ๊ณ ์๋ฒ์ฆ๋๋ฌด data์ ๊ฐ ๊ทธ๋ฃจ ์ ํ๊ท ์ด ์๋ก ๊ฐ์ ์ง '๊ทธ๋ฃจ ์'๋ผ๋ ํ factore๊ฐ ์ ์ฉ๋ One-Way ANOVA๋ฅผ ์ด์ฉํ์ฌ ์ ์์ฑ 1% ๋ฒ์ ๋ด์์ ๊ฒ์ ํด๋ณด์
(two independent samples t-test์์ ์ฌ์ฉํ data ๊ทธ๋๋ก)
1> data ์ค๋น
df_anova = df.loc[:,['์ํ๋๋ฌด','์๋ฒ์ฆ๋๋ฌด','๋ํฐ๋๋ฌด']]
#dataframe ๋ด ๋ชจ๋ , ์ ๊ฑฐ & intํ ๋ณํ (for ~ in df.iterrows() ๊ตฌ๋ฌธ ์ฌ์ฉ)
for i,s in df_anova.iterrows():
df_anova.iloc[i] = pd.to_numeric(s.str.replace(',',''))
2> EDA
→ violin plot์ผ๋ก '๋๋ฌด ๊ฐ์'๋ผ๋ factor๋ก ๋๋ 3๊ฐ์ treatment ์๊ฐํ>
from matplotlib import font_manager, rc
matplotlib.rcParams['axes.unicode_minus'] = False
font_name = font_manager.FontProperties(fname="c:/Windows/Fonts/malgun.ttf").get_name()
rc('font', family=font_name)
#violinplot
sns.violinplot(data=df_anova,palette="muted");
3> F ๊ฒ์ ํต๊ณ๋ ๊ฐ๊ณผ p-value ์ถ๋ ฅํ๊ธฐ
fvalue, pvalue = stats.f_oneway(df_anova['์ํ๋๋ฌด'], df_anova['์๋ฒ์ฆ๋๋ฌด'], df_anova['๋ํฐ๋๋ฌด'])
print(fvalue, pvalue)
#17.006289557888046 8.935183167883698e-07
4> ๊ฒ์ ๊ฒฐ๊ณผ
→ pvalue๊ฐ 0.01๋ณด๋ค ์์ผ๋ฏ๋ก ๊ท๋ฌด๊ฐ์ค์ด ๊ธฐ๊ฐ๋จ
→ ๋ฐ๋ผ์ ์ํ๋๋ฌด, ์๋ฒ์ฆ๋๋ฌด, ๋ํฐ๋๋ฌด data๋ '๊ทธ๋ฃจ ์'๋ผ๋ factor์ ์ํด ๊ตฌ๋ถํ ์ ์์ผ๋ฉฐ, ์ด factor์ ์ํด ๊ตฌ๋ถ๋ ์ด 3๊ฐ์ treatment์ ํ๊ท ๋ค์ ์๋ก ๊ฐ์ง ์์์ 'ํต๊ณ์ ์ ์์ฑ' ๋ฒ์ ๋ด์์ ๋ณด์ผ ์ ์๋ค!
- ๋! -
* ์ธ๋ฌ ์ถ์ฒ) https://ourcodingclub.github.io/tutorials
* ๋ด์ฉ ์ ์ฒด ์ถ์ฒ) ProDS(์ด๊ธ+์ค๊ธ)1
* ANOVA ์ค๋ช ์๋ฃ) https://www.mathstat.dal.ca/~stat2080/Fall14/Lecturenotes/anova1.pdf
'Statistics > Concepts(+codes)' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
Parametric vs. Non-Parametric Tests (0) | 2022.05.02 |
---|---|
Types of Errors in Hypothesis Testing (0) | 2022.04.27 |
distributionโซ Student's t-distribution (in-depth) (0) | 2022.04.25 |
T-test ๐ใTwo-samples 'independent' T-test (w/python code)ใ (0) | 2022.04.20 |
descriptive statistics & inferential statistics (0) | 2022.04.15 |
๋๊ธ