statistics 통계학을 배운다면 반드시(?) 구분해서 알아야 할 '기술통계치' & '추론통계치'!!
1. descriptive statistics(기술통계치)
'summarizes the characteristic of a data set'
≫ 주어진 data를 'descriptive(묘사하는) 관련 통계수치'라고 뜻하는 걸로 data를 설명하는 통계치들을 뜻함!
≫ 다시 크게 두 가지로 나눌 수 있는데,
1> 수집한 data를 집중적으로 나타내 주는 평균, 중앙값, 최빈값 등인 '데이터 집중화' → central tendency
2> 수집한 data가 어느 정도 퍼져 있는 지를 나타내 주는 '분산도'로 표준편차, 사분위 등이 있다. → variability
≫ 우리가 저번에 배운 box plot & violin plot으로 사분위, 데이터가 퍼져 있는 정도 - 분포 등을 시각적으로 확인이 가능!
box plot (+seaborn)
* 저번 EDA 개념 포스팅에서 EDA가 무엇인지 알아보았고, data 종류별 & 상황별 적절한 시각화 예에 대해서 공부했다. https://sh-avid-learner.tistory.com/entry/EDA-Exploratory-Data-Analysis EDA - Explorat..
sh-avid-learner.tistory.com
violin plot (+seaborn)
* EDA에 대해 알아보았고 EDA 과정에서 많이 쓰이는 시각화 방법 중 box plot에 대해 자세히 알아보았다. box plot (+seaborn) * 저번 EDA 개념 포스팅에서 EDA가 무엇인지 알아보았고, data 종류별 & 상황별
sh-avid-learner.tistory.com
** 그 외에 R로 구현할 수 있는 bag plot도 존재 **
** pandas를 통해서 dataframe의 describe() method로 사분위수, max, min, std, count, mean 확인 가능! **
df.describe()
≫ kurtosis(첨도) = 분포의 뾰족한 정도를 뜻하는 것으로, 평균의 중심에 data가 몰려 있을 수록 첨도가 커진다고 말할 수 있다
- 첨도값이 0보다 크면 정규분포를 기준으로 더 뾰족하며, 첨도값이 0보다 작으면 정규분포를 기준으로 분포의 높이가 정규분포보다 더 낮아진다 (절댒값 7 미만이면 기준에 부합한다 고려)
≫ skewness(왜도) = 왜도는 분포가 중심을 기준으로 얼마나 비대칭적으로 있는 지를 나타내는 수치라고 말할 수 있다. 왜도가 양의 값(positive-skewness)을 가지면 data의 중심이 정규 분포보다 왼쪽으로 치우쳐져 있다고 할 수 있고, 음의 값(negative-skewness)이면 오른쪽으로 치우쳐져 있다고 할 수 있음
- 왜도 값이 2 미만이면 (절댓값 기준) 왜도가 크지 않다고 판단한다고 한다 (절댓값 3 미만이면 기준에 부합한다 고려)
2. inferential statistics(추론통계치)
'allow you to test a hypothesis or assess whether your data is generalizable to the broader population'
≫ 수집한 data를 기반으로 직접 '추론'하는 기법!
≫ 추론에 대해서 '모집단 전체의 특성을 파악하지 못하므로 모집단 일부의 표본을 추출하여 모집단 전체의 특성을 파악'한다고 배웠다.
- 그리고 이렇게 모집단 전체를 파악하는 과정에서 '신뢰구간' 기법을 사용한다고 배움
<추정과 검정> - 점 & 구간 추정 - confidence interval (w/python code)
1. 개요 → 모수 θ의 추정에 사용되는 통계량을 θ의 추정량(θhat으로 표기)이라고 함 → 추정을 목적으로 하는 표본통계량 모수(θ) 👉 추정량(=표본통계량; θhat) - 추정치(관찰값) Q) 그렇다면
sh-avid-learner.tistory.com
≫ 저번 포스팅에 'hypothesis test' - 가설검정 test를 이용해서 직접 추론하는 방식 절차에 대해 배웠다.
(hypothesis testing 기법은 표본에 대해서 조사하는 과정에서 가설검정 testing을 진행한다! - 즉, 모집단에 대해 추론하기 위해)
Hypothesis Test: H0 & Ha - concepts
1. Hypothesis Testing? → Null Hypothesis(H0) 🙆♂️ 1▶ Create a Hypothesis (without stating H0) ▷ (if data gives us strong evidence that the hypothesis is wrong) we can reject the Hypothes..
sh-avid-learner.tistory.com
즉! 정리를 하자면
'sample로 뽑은 sample 그 자체의 관찰할 때 쓰이는 것이 descriptive statistics'
&
'descriptive statistics로 여러 정보를 얻은 sample의 data를 기반으로 전체 population을 추론하는 inferential statistics'
(+) 여기서 sampling 기법은 크게 4가지로
simple random sampling, systematic sampling, cluster sampling, stratified sampling 존재
<추정과 검정> - 표본추출법 (w/ python code) (1/2)
- (아래) (제 1 - 2 - 3 - 4분면 순서대로) 단순임의추출법 - 계통추출법 - 집락추출법 - 층화추출법 - ** 앞선 포스팅에서 우리는 통계적 추론에 대해서 배웠고, 모집단에서 표본을 추출하여 여러 통
sh-avid-learner.tistory.com
<추정과 검정> - 표본추출법 (w/ python code) (2/2)
- 오늘은 하단 두개 (좌) 집락추출법 (우) 층화추출법에 대해서 배워보자 - Q) 모집단에서 표본을 추출하는 또 다른 두가지 방법? A) 집락추출법/층화추출법 (단순임의추출/계통추출은 하단 포스
sh-avid-learner.tistory.com
* 출처) https://careerfoundry.com/en/blog/data-analytics/inferential-vs-descriptive-statistics/
* 출처1) https://drhongdatanote.tistory.com/25
* 출처3) https://m.blog.naver.com/yk60park/222100758577
* 출처4) https://statisticsbyjim.com/basics/descriptive-inferential-statistics/
'Statistics > Concepts(+codes)' 카테고리의 다른 글
distribution≫ Student's t-distribution (in-depth) (0) | 2022.04.25 |
---|---|
T-test 👉《Two-samples 'independent' T-test (w/python code)》 (0) | 2022.04.20 |
<추정과 검정> - 점 & 구간 추정 - confidence interval (w/python code) (0) | 2022.04.15 |
T-test 👉 《One-sample T-test (w/ python code)》 (0) | 2022.04.05 |
<추정과 검정> - 표본추출법 (w/ python code) (2/2) (0) | 2022.03.30 |
댓글