Statistics/Concepts(+codes)

<추정과 검정> - 추론 개요

metamong 2022. 3. 24.

1. 통계적 추론 개요

[1] 관련 기본 개념

 

→ 모집단 = 관심대상을 다 모아 둔 것

→ 모수 = 해당 모집단(↑)을 대표하는 값. 모집단의 특징을 요약하는 '수' (예를 들면 모집단의 평균, 분산)

 

"but 우리가 알고 싶어하는 모집단을 이용하려면 시간 & 비용이 너무 많이 소요된다. 따라서 일부 표본을 추출!"

 

→ 표본 = 모집단에서 n개의 표본을 추출 (X1, X2 ~ Xn)

(여기서 표본을 어떻게 추출하느냐? 다양한 표본 추출법이 있으며 그 내용은 다음 포스팅에)

→ 표본자료 = 추출한 표본에서 구하고자 하는 대응값 (x1, x2 ~ xn)

(무슨 말이냐면... 우리가 모집단의 어떤 '값'에 대해 애초에 궁금했을 것이다. 예를 들면 우리나라 성인 '비만도'라는 값에 대해 궁금했다고 치자. 그러면 우리나라 성인 중 일부 사람들을 추출해 해당 여러 표본들 중 한 집단인 표본의 '비만도'라는 그 표본 '값'을 표본자료라 함)

 

 통계적 추론(inferential Statistics) = '표본자료를 통해 어떻게 하면 모수를 잘 맞출 수 있을지?'의 문제

- 표본자료를 통해 통계량 생성하고 그 통계량으로 모수를 맞추는 과정 

 통계량 = 표본의 특성치 (모수는 모집단의 특성치였다. ↑)

- 통계량과 모수 사이에는 항상 차이가 존재하기 마련이고 우리는 이 차이인 '오차'를 줄이는 방법을 고민...! (이것이 통계학.....)

[2] 확률표본, 통계량, 표본분포

→ 확률표본 (표본 중에서 아래↓ 조건들을 만족하는 표본)

1) 모집단과 동일한 분포를 가지는 표본 (모집단 f(x)로부터의 표본)

2) 다른 확률표본이 얼마나 나오는 지 서로 영향을 받거나 주지 않음 (독립적)

3) 확률표본 X1, X2 ~ Xn은 모두 동일하게 f(x)의 분포를 따른다 (위 1)과 같은 말)

= 'iid(independent & identical) 표본'

→ 확률분포함수(f(x)) = 모집단 변수 X의 확률분포함수

 

 통계량(수치적으로 다시 표현하자면) = 확률표본 X1, X2 ~ Xn의 함수 = 표본자료에 대한 요약

- 평균, 중위수, 분산 등등 여러 종류의 통계량이 가능하다

- 통계량도 '확률변수'의 일종

- random variable (고유한 자기 자신의 변수 가질 수 있음)

 표본분포 = 통계량의 확률분포

- 표본추출을 여러 번 해서 여러 통계량을 구하고 표본분포를 구한다

- 표본분포를 통해 얼마나 신뢰하는 지, 타겟(원하는 값)이 해당 구간에 포함 여부 가능성을 알 수 있음

 

(+) '표본분포'의 평균 & 분산

1> 모집단에서 '여러' 표본 추출

2> 해당 표본들의 표본평균 & 표본분산 구함

3> 1>과 2>를 반복적으로 구해 '표본분포'를 생성

 

4> 결과) '표본분포의 기댓값 = 모집단의 기댓값 (정확히 일치!)'

→ 표본의 평균으로 모평균을 추정하는게 좋다는 사실 입증

→ '분산 = 모분산/표본개수'여서 표본개수를 무한히 늘릴 경우 '분산 = 0' - 즉 무게중심은 변함이 없음

 

- 위 1> 2> 3> 4> 과정 -

 

 


- 용어 확실히! - 

 

 

- 모분포 & 표본분포 -

 


* 출처) 공공데이터 청년인턴(일경험수련생) 상시 교육 ProDS 데이터분석이론 (초급+중급)1

댓글