Statistics/Concepts(+codes)

distribution≫ Student's t-distribution (in-depth)

metamong 2022. 4. 25.

통계에 있어서 빼먹지 않아야 할, 무조건 숙지해야 할 '통계분포' 개념

 

오늘은 가장 많이 사용하고 꼭 알아야 할 t-분포에 대해서 알아보려 한다

 

사실 저번 두 포스팅에서 t-분포에의 검정통계량 & p-value를 사용해 hypothesis test 두 가지를 진행한 바 있다.

 

T-test 👉 《One-sample T-test (w/ python code)》

👒 저번 시간에 statistics에서 빼놓을 수 없는 '가설검정 TEST - Hypothesis Test'에 대해 배웠다. Hypothesis Test: H0 & Ha - concepts 1. Hypothesis Testing? → Null Hypothesis(H0) 🙆‍♂️ 1▶ Creat..

sh-avid-learner.tistory.com

 

T-test 👉《Two-samples 'independent' T-test (w/python code)》

① 가설검정 hypothesis test에 대해서 배웠고 ② 그 중 대표적인 One-sample T-test에 대해서 배웠다. T-test 👉 《One-sample T-test (w/ python code)》 👒 저번 시간에 statistics에서 빼놓을 수 없는 '가설..

sh-avid-learner.tistory.com

 

👦 그리고 위 one-sample t-test에서 t-분포에 대해 잠깐 다룬 적이 있는데

 

 

모집단의 표본에 관한 분포이며

표준정규분포 Z와 카이제곱분포 U가 사용된 분포

자유도에 의해 결정되는 분포

 

이렇게 알고 있었다

 

 

④ 추가로 분포의 함수식과 개형에 대해서 배웠다.

→ Z 표준정규분포보다 꼬리가 두껍고, 분산이 더 크며

→ 자유도에 따른 개형의 변화 내용

Z와 t의 비교

* 우리는 Z-score은 일종의 값(value)으로 모집단의 평균과 표준편차를 알고 있다면 식에 의해 해당 score가 나오며, 여러 값마다 한 개씩의 Z-score가 산출이 된다는 것을 알고 있다. 그리고 여러 Z-score를 모아놓은 것이 Z-distribution

 

* t의 경우 모집단에서 n개의 sample을 표본으로 추출해 식에 의해 t값(t-statistics; value가 아닌 statistics이다 - 계속 변하는 값이므로)이 산출이 되고, 당연히 모집단으로부터 여러 sample을 뽑을 수 있기 때문에 일종의 t-distribution이 형성된다

 

 

→ 모집단의 평균은 당연히 모르므로, 표본집단의 평균 사용

→ t식에서의 s 표본표준편차 & 표본sample 개수에 따라 t-distribution이 Z-distribution과 달라진다고 말할 수 있다

 

※ n에 따른 개형 변화 ※

- n이 증가할수록(degree of freeom이 증가할수록) 표준정규분포랑 흡사해진다 -

 

→ 당연히 우리는 n이 증가할수록 해당 표본집단이 모집단과 흡사해지므로 분포도 흡사해지는 걸 확인할 수 있다.

→ 여기서 우리는 n이 30이 넘으면 거의 흡사하므로 웬만한 통계문제에서는 't-분포가 표준정규분포라 가정하고 풀어라'라는 거의 암묵적인 룰(?)과 같은 멘트를 꼭 고정박아 놓는 걸 보았다.

Z-분포 & t-분포는 각각 언제 사용?

★ 여태까지는 t-분포를 Z-분포라 가정하고 문제를 풀었기 때문에 신뢰구간 계산 시 언제 t table을 활용하고 어떤 경우는 z-분포를 활용해야 하는 지 정확히 기준을 세우는데 헷갈렸다.

 

- 아래 순서도 참고 하자 -

 

 

 

<추정과 검정> - 점 & 구간 추정 - confidence interval (w/python code)

1. 개요 → 모수 θ의 추정에 사용되는 통계량을 θ의 추정량(θhat으로 표기)이라고 함 → 추정을 목적으로 하는 표본통계량 모수(θ) 👉 추정량(=표본통계량; θhat) - 추정치(관찰값) Q) 그렇다면

sh-avid-learner.tistory.com

 

★ 신뢰구간을 사용하는 이유는 모수에 대한 추정을 위해 사용한다고 배웠다

① 만약 모집단의 표준편차를 모른다면, 표준편차를 S를 이용 & t table과 df를 참고해 해 z대신 t로 구간추정을 진행한다

② 모집단의 표준편차를 안다고 하더라도, 샘플 size가 30을 넘지 않는 경우에도 t로 구간추정 진행

③ 마지막으로 샘플 size가 30을 넘고, 모집단의 표준편차를 안다면 t가 아닌, z분포라 가정하고 진행해도 무방하다고 알려져 있다.

(** 그러나 실제 상황에서 모집단의 표준편차를 아는 경우가 매우 드물기 때문에, 웬만한 case 모두 t table을 사용해야 한다고 봐도 무방!)

 

 

🤖 하지만! 위 t-table에서 볼 수 있듯이 df 수치가 1000을 초과하지 않는 이상, error가 항상 존재하기 마련이며, 이는 곧 신뢰구간 추정에 오차를 가져다준다. 당연히 t값이 z값보다 큰 값이며 (t-분포가 tail쪽이 더 heavy하다고 하였고, 분포 분산이 더 크기 때문) 신뢰구간이 z보다 더 긴 구간으로 추정하게 해줌

 

🤖 따라서 때에 따라 n이 30이 넘는 경우 무조건 z value를 적용하라는 경우도 있긴 하지만, t table을 참조하고 (정확성을 위해) 신뢰구간 추정 연산에 사용해야 된다는 의견도 존재!

(하지만 현재 시중 통계문제들은 표본의 개수를 충분히 크게 sampling하는 경우로 가정하는 경우가 대다수 - 따라서 z table 활용하라 함)

 

(+) 신뢰구간 포스팅에서 다룬 예시 문제는 엄밀히 말하면 t table을 참조해야 함 (표본 개수가 7밖에 안되므로)

 

(+) 추가로 t-test에서 검정통계량으로 나온 t0값을 기준으로 p-value를 구할 때

t table을 참고해 (n>30이더라도) 정확한 p-value를 구하는 걸 추천드림!

 

※ 다시 정리하자면, 원래 sample을 뽑았으므로 t table참고가 정석이다.

하지만, sample size가 매우 크면 z분포와 거의 비슷하므로,

마치 z 분포인것처럼 여태까지 z table을 참고해 신뢰구간을 추정하고 p-value를 구한 것이다.

 

t-분포 이해 완료!


* 썸넬 출처) https://www.jmp.com/ko_kr/statistics-knowledge-portal/t-test/t-distribution.html

* z-분포 & t-분포) https://www.statology.org/normal-distribution-vs-t-distribution/

* t-table) https://www.sjsu.edu/faculty/gerstman/StatPrimer/t-table.pdf 

* Z & t) https://www.econnect-study.com/index.php/statistics-difference-between-z-distribution-and-t-distribution

* 내용출처) https://www.youtube.com/watch?v=Uv6nGIgZMVw&t=485s 

댓글