1. 통계적 추론 개요
[1] 관련 기본 개념
→ 모집단 = 관심대상을 다 모아 둔 것
→ 모수 = 해당 모집단(↑)을 대표하는 값. 모집단의 특징을 요약하는 '수' (예를 들면 모집단의 평균, 분산)
"but 우리가 알고 싶어하는 모집단을 이용하려면 시간 & 비용이 너무 많이 소요된다. 따라서 일부 표본을 추출!"
→ 표본 = 모집단에서 n개의 표본을 추출 (X1, X2 ~ Xn)
(여기서 표본을 어떻게 추출하느냐? 다양한 표본 추출법이 있으며 그 내용은 다음 포스팅에)
→ 표본자료 = 추출한 표본에서 구하고자 하는 대응값 (x1, x2 ~ xn)
(무슨 말이냐면... 우리가 모집단의 어떤 '값'에 대해 애초에 궁금했을 것이다. 예를 들면 우리나라 성인 '비만도'라는 값에 대해 궁금했다고 치자. 그러면 우리나라 성인 중 일부 사람들을 추출해 해당 여러 표본들 중 한 집단인 표본의 '비만도'라는 그 표본 '값'을 표본자료라 함)
→ 통계적 추론(inferential Statistics) = '표본자료를 통해 어떻게 하면 모수를 잘 맞출 수 있을지?'의 문제
- 표본자료를 통해 통계량 생성하고 그 통계량으로 모수를 맞추는 과정
→ 통계량 = 표본의 특성치 (모수는 모집단의 특성치였다. ↑)
- 통계량과 모수 사이에는 항상 차이가 존재하기 마련이고 우리는 이 차이인 '오차'를 줄이는 방법을 고민...! (이것이 통계학.....)
[2] 확률표본, 통계량, 표본분포
→ 확률표본 (표본 중에서 아래↓ 조건들을 만족하는 표본)
1) 모집단과 동일한 분포를 가지는 표본 (모집단 f(x)로부터의 표본)
2) 다른 확률표본이 얼마나 나오는 지 서로 영향을 받거나 주지 않음 (독립적)
3) 확률표본 X1, X2 ~ Xn은 모두 동일하게 f(x)의 분포를 따른다 (위 1)과 같은 말)
= 'iid(independent & identical) 표본'
→ 확률분포함수(f(x)) = 모집단 변수 X의 확률분포함수
→ 통계량(수치적으로 다시 표현하자면) = 확률표본 X1, X2 ~ Xn의 함수 = 표본자료에 대한 요약
- 평균, 중위수, 분산 등등 여러 종류의 통계량이 가능하다
- 통계량도 '확률변수'의 일종
- random variable (고유한 자기 자신의 변수 가질 수 있음)
→ 표본분포 = 통계량의 확률분포
- 표본추출을 여러 번 해서 여러 통계량을 구하고 표본분포를 구한다
- 표본분포를 통해 얼마나 신뢰하는 지, 타겟(원하는 값)이 해당 구간에 포함 여부 가능성을 알 수 있음
(+) '표본분포'의 평균 & 분산
1> 모집단에서 '여러' 표본 추출
2> 해당 표본들의 표본평균 & 표본분산 구함
3> 1>과 2>를 반복적으로 구해 '표본분포'를 생성
4> 결과) '표본분포의 기댓값 = 모집단의 기댓값 (정확히 일치!)'
→ 표본의 평균으로 모평균을 추정하는게 좋다는 사실 입증
→ '분산 = 모분산/표본개수'여서 표본개수를 무한히 늘릴 경우 '분산 = 0' - 즉 무게중심은 변함이 없음
- 위 1> 2> 3> 4> 과정 -
- 용어 확실히! -
- 모분포 & 표본분포 -
* 출처) 공공데이터 청년인턴(일경험수련생) 상시 교육 ProDS 데이터분석이론 (초급+중급)1
'Statistics > Concepts(+codes)' 카테고리의 다른 글
<추정과 검정> - 점 & 구간 추정 - confidence interval (w/python code) (0) | 2022.04.15 |
---|---|
T-test 👉 《One-sample T-test (w/ python code)》 (0) | 2022.04.05 |
<추정과 검정> - 표본추출법 (w/ python code) (2/2) (0) | 2022.03.30 |
<추정과 검정> - 표본추출법 (w/ python code) (1/2) (0) | 2022.03.25 |
Hypothesis Test: H0 & Ha - concepts (0) | 2022.03.24 |
댓글