Statistics/Concepts(+codes)

𝜒2 distribution + One-Sample 𝜒2 test

metamong 2022. 5. 2.

😽 저번 시간에 parametric vs. non-parametric 차이에 대해서 배웠다.

😽 이번 포스팅에는 non-parametric test를 처음으로 배워보려 함! 카이제곱 검정 첫번째 test - 적합도 검정에 대해서 알아보ZA! 🤩

(독립성 검정은 다음 시간에)

🤲 범주형 변수를 statistical test에 활용하는 경우 카이제곱검정이 많이 사용된다!

🤲 카이제곱은 크게 두 가지로 나눈다.

① 적합도 검정 - Goodness of Fit Test = '하나의 범주형 변수에 대해 각 범주별 확률에 관한 검정'

<One-Sample>

→ compare multiple observed proportions to expected probabilities

→ 예) 어느 지역의 주거 형태가 아파트, 오피스텔, 주택 이렇게 세 종류가 있다고 한다면 각각 어느 정도의 비중을 차지하는 가? 가설로 각각의 비중을 세우고 적합한 지, 범주별 상대적 빈도를 이용해 세운 것이 적절한 지?

② 독립성 검정 - Test of Independence = '서로 다른 두 범주형 변수 간에 연관성이 있는 지' (적합도보다 더 많이 쓰임!)

(다음 포스팅)

<Two-Samples (Independent)>

→ evaluate the association btw two categorical variables

→ 예) 범주형 변수가 2개 주어지고 서로 간의 연관성을 따진다 - 예로 수학과목의 학점과 통계과목의 학점이 서로 연관성이 있는 지 검정

* 𝜒2 distribution

👶 먼저 카이제곱분포를 알아보자

① 표준정규분포(Z1, Z2, Z3, ... Zk)를 따르는 여러 개의 k개의 Z가 있을 때, 각 분포는 서로 독립이고 랜덤하게 각 분포별로 하나씩 임의의 Z를 뽑고 각각 제곱해서 서로 더한다 - 제곱합

② 또 각 표준정규분포에서 랜덤하게 다르게 뽑아 제곱합을 또 구한다

③ 위 ②를 무수히 반복해, 제곱합들의 분포를 '카이제곱분포'라고 부른다

👶 카이제곱분포에서 필요한 모수는 k (자유도; 표준정규분포 따르는 변수가 몇 개가 제곱해서 더해졌는 지의 수치)

≫ 즉 k만 알면 x에 대한 분포함수로 정의할 수 있다.

👶 대체적으로 카이제곱 분포는 오른꼬리가 긴 형태를 가짐

- 카이제곱분포 식 & 개형(자유도 3) -

👶 평균은 자유도 k, 분산은 2k (자유도를 두 배 곱함)

👶 자유도가 증가하면?

→ 자유도가 증가한다는 건, 제곱합을 구하는 데 있어서 표준정규분포의 수를 늘린다는 것과 같은 말이다. 이 때 평균 & 분산 식에 의해 오른쪽으로 이동하면서 변동성이 더 넓어지는 그래프 개형으로 바뀌게 된다

👶 즉! 다시 정리하면, 카이제곱분포확률밀도함수 개형은 오른꼬리가 길게 늘어진 비대칭 형태이며, 분포 수가 늘어날수록 점점 대칭에 가까운 형태를 보인다

👶 분위수) α라고 할 때 오른꼬리 개형이므로 P[X>c] = α를 만족하는 X의 (1-α) 분위수 c를 𝜒2 α,k(카이제곱 검정통계량)라고 표기한다

(카이제곱분포는 대칭이 아니므로 0을 기준으로 부호가 다르고 같은 값을 가지는 경우가 없다. 따라서 표나 소프트웨어를 통해 따로 찾아야 함)

- 자유도에 따른 카이제곱그래프 개형 & 분위수 -

1> Goodness of Fit (One Sample 𝜒2 test)

1> 가설검정

→ H0) 주어진 data의 분포가 예상되는 분포(expected frequencies)와 동일한 분포를 나타낸다

→ Ha) 주어진 data의 분포가 예상되는 분포와 동일하지 않다 (즉, 비모수적 방법이기에 정규분포 가정에 대한 분포 가정이 언급 x. 매우 다양한 분포의 data에 대해 모두 균등 분포에 관한 적합성 판정을 내릴 수 있는 것이다.)

(*예상되는 분포는 전체 data의 평균으로 구성된 분포를 많이 사용)

2> 카이제곱분포 - CV 구하기

→ 위 분위수 사진에서 α로 칠한 부분을 critical region(넓이가 α)이라 부르며 reject하는 곳이다

→ df(n-1 자유도)와 주어진 α(area to the Right of the CV)를 이용해 CV 구하기 (카이제곱 검정통계량)

* 예시 >

- α(0.1)와 자유도를 이용해 카이제곱 검정통계량 값이 9.236인 걸 알아냄 -

- 그리고 이 값보다 적은 값이 나오면 reject region이 아니므로 H0을 채택! -

(아래 그림에서는 카이제곱 값이 5.6이 나왔으므로 H0 채택)

3> 카이제곱 statistics 구하기

→ 이젠 주어진 CV보다 카이제곱 statistics가 큰 지 작은 지 확인해야 한다

(※ 여기서 카이제곱 statistics는 수치에 따라 변하는 값이다. 즉, 수치가 전체적으로 10배만 커져도 검정통계량 수치 자체가 커진다. 따라서 우리는 대소 비교(p-value)를 통해 가설 검정 여부를 따질 수 있다)

- 아래 식으로 카이제곱 통계량을 구한다 -

4> 검정 결과 내리기

① 카이제곱 statistics >= CV이면? - H0 rejected - Ha 채택 - 주어진 data의 분포가 예상되는 data의 분포와 일치하지 않다

② 카이제곱 statistics < CV이면? - Ho 채택 - 주어진 data의 분포가 예상되는 data의 분포와 일치한다

w/code

★ scipy.stats.chisquare docu() ★

https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.chisquare.html

scipy.stats.chisquare(f_obs, f_exp=None, ddof=0, axis=0)

'Calculate a one-way chi-square test. The chi-square test tests the null hypothesis that the categorical data has the given frequencies.'

→ f_obs는 측정하고 싶은 frequency들의 list를 집어넣으면 된다

→ f_exp는 측정에 사용할 기댓값 frequency들의 list를 집어넣는다 (default는 모든 관측치가 똑같은 값으로 고르게 분배되는 평균값 list)

→ ddof는 delta degrees of freedom으로 default는 0, 즉 자유도 계산 시 (k-1)로 계산됨. 여기서 p-value를 위해 추가로 ddof로 조정해줄 수 있는 데 dof = k - 1 -ddof로 계산된다

▒ returns (1) 카이제곱 통계량 + (2) p-value ▒

▒ 주의! ▒

'This test is invalid when the observed or expected frequencies in each category are too small. A typical rule is that all of the observed and expected frequencies should be at least 5. According to (Pearson, Karl. “On the criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can be reasonably supposed to have arisen from random sampling”, Philosophical Magazine. Series 5. 50 (1900), pp. 157-175.), the total number of samples is recommended to be greater than 13, otherwise exact tests (such as Barnard’s Exact test) should be used because they do not overreject.'

→ 적어도 13개 보다는 많게 sample들이 있어야 통계적으로 의미 있는 결과가 나온다고 함!

예시>

Q. 총 15개의 숫자로 나열되어 있는 두 개의 list가 있다고 하자. 각 list별 해당 15개의 숫자로 만들어진 분포는 해당 숫자들의 평균으로 만들어진 기댓값 분포와 일치하다고 말할 수 있는 지(즉 균등한 분포를 띄고 있는 지) 카이제곱검정을 이용해 각각 적합성을 검정해 보자

A1)

import numpy as np
from scipy.stats import chisquare 

s_obs = np.array([20, 13, 25, 22, 20, 16, 19, 21, 23, 17, 19, 22, 20, 20, 19, 26, 24, 19, 17, 21])
chisquare(s_obs, axis=None)

#Power_divergenceResult(statistic=9.05955334987593, pvalue=0.9724771417573945)

* 결과> 첫번째 list는 pvalue가 0.05보다 크게 측정되므로 H0은 기각되어서는 안된다. 따라서 s_obs list의 숫자로 만들어진 분포는 평균을 따르는 기댓값 분포와 일치한다(균등한 분포를 따른다)고 통계적 유의성 범위 내에서 설명할 수 있다.

A2)

s_obs = np.array([3, 2, 1, 5, 9, 2, 5, 5, 8, 2, 85, 76, 82, 82, 80, 79, 83, 81, 80, 78])
chisquare(s_obs)
#Power_divergenceResult(statistic=691.2924528301887, pvalue=2.513563617019893e-134)

* 결과> 두번째 lists는 0.05보다 매우 작게 측정되므로 H0은 기각, 즉 두 번째 list는 평균값으로 만들어진 분포와 매우 다르다고 말할 수 있다. 실제 육안으로만 보더라도 매우 값이 적은 숫자들과 큰 숫자들이 극단적으로 양측에 분포해 평균값에 몰린 분포와 확연히 다르다(균등한 분포를 따르고 있지 않다)고 판단 가능!

👩‍🚀 one-sample chisquare test 완료! 👩‍🚀

* 썸네일 출처) https://educationalresearchtechniques.com/2014/08/29/chi-square-goodness-of-fit-test/

* 내용 일부 출처) ProDS(초급+중급)1

* 출처) https://www.youtube.com/watch?v=HKDqlYSLt68

저작자표시 비영리 변경금지 (새창열림)

'Statistics > Concepts(+codes)' 카테고리의 다른 글

f distribution (1)	2022.05.04
Two-Samples 𝜒2 test (0)	2022.05.03
Parametric vs. Non-Parametric Tests (0)	2022.05.02
Types of Errors in Hypothesis Testing (0)	2022.04.27
ANOVA & (One-Way ANOVA + w/code) (1)	2022.04.25

𝜒2 distribution + One-Sample 𝜒2 test

* 𝜒2 distribution

1> Goodness of Fit (One Sample 𝜒2 test)

w/code

'Statistics > Concepts(+codes)' 카테고리의 다른 글

댓글

티스토리툴바