Statistics/Concepts(+codes)

descriptive statistics & inferential statistics

metamong 2022. 4. 15.

statistics 통계학을 배운다면 반드시(?) 구분해서 알아야 할 '기술통계치' & '추론통계치'!!

1. descriptive statistics(기술통계치)

'summarizes the characteristic of a data set'

 

≫ 주어진 data를 'descriptive(묘사하는) 관련 통계수치'라고 뜻하는 걸로 data를 설명하는 통계치들을 뜻함!

 

≫ 다시 크게 두 가지로 나눌 수 있는데,

1> 수집한 data를 집중적으로 나타내 주는 평균, 중앙값, 최빈값 등인 '데이터 집중화' → central tendency

2> 수집한 data가 어느 정도 퍼져 있는 지를 나타내 주는 '분산도'로 표준편차, 사분위 등이 있다. → variability

 

≫ 우리가 저번에 배운 box plot & violin plot으로 사분위, 데이터가 퍼져 있는 정도 - 분포 등을 시각적으로 확인이 가능!

 

 

box plot (+seaborn)

* 저번 EDA 개념 포스팅에서 EDA가 무엇인지 알아보았고, data 종류별 & 상황별 적절한 시각화 예에 대해서 공부했다. https://sh-avid-learner.tistory.com/entry/EDA-Exploratory-Data-Analysis EDA - Explorat..

sh-avid-learner.tistory.com

 

 

violin plot (+seaborn)

* EDA에 대해 알아보았고 EDA 과정에서 많이 쓰이는 시각화 방법 중 box plot에 대해 자세히 알아보았다. box plot (+seaborn) * 저번 EDA 개념 포스팅에서 EDA가 무엇인지 알아보았고, data 종류별 & 상황별

sh-avid-learner.tistory.com

 

** 그 외에 R로 구현할 수 있는 bag plot도 존재 **

 

** pandas를 통해서 dataframe의 describe() method로 사분위수, max, min, std, count, mean 확인 가능! **

 

df.describe()

 

 kurtosis(첨도) = 분포의 뾰족한 정도를 뜻하는 것으로, 평균의 중심에 data가 몰려 있을 수록 첨도가 커진다고 말할 수 있다

- 첨도값이 0보다 크면 정규분포를 기준으로 더 뾰족하며, 첨도값이 0보다 작으면 정규분포를 기준으로 분포의 높이가 정규분포보다 더 낮아진다 (절댒값 7 미만이면 기준에 부합한다 고려)

 

 skewness(왜도) = 왜도는 분포가 중심을 기준으로 얼마나 비대칭적으로 있는 지를 나타내는 수치라고 말할 수 있다. 왜도가 양의 값(positive-skewness)을 가지면 data의 중심이 정규 분포보다 왼쪽으로 치우쳐져 있다고 할 수 있고, 음의 값(negative-skewness)이면 오른쪽으로 치우쳐져 있다고 할 수 있음

- 왜도 값이 2 미만이면 (절댓값 기준) 왜도가 크지 않다고 판단한다고 한다 (절댓값 3 미만이면 기준에 부합한다 고려)

2. inferential statistics(추론통계치)

'allow you to test a hypothesis or assess whether your data is generalizable to the broader population'

 

 수집한 data를 기반으로 직접 '추론'하는 기법!

 

≫ 추론에 대해서 '모집단 전체의 특성을 파악하지 못하므로 모집단 일부의 표본을 추출하여 모집단 전체의 특성을 파악'한다고 배웠다.

- 그리고 이렇게 모집단 전체를 파악하는 과정에서 '신뢰구간' 기법을 사용한다고 배움

 

<추정과 검정> - 점 & 구간 추정 - confidence interval (w/python code)

1. 개요 → 모수 θ의 추정에 사용되는 통계량을 θ의 추정량(θhat으로 표기)이라고 함 → 추정을 목적으로 하는 표본통계량 모수(θ) 👉 추정량(=표본통계량; θhat) - 추정치(관찰값) Q) 그렇다면

sh-avid-learner.tistory.com

 

 

≫ 저번 포스팅에 'hypothesis test' - 가설검정 test를 이용해서 직접 추론하는 방식 절차에 대해 배웠다.

(hypothesis testing 기법은 표본에 대해서 조사하는 과정에서 가설검정 testing을 진행한다! - 즉, 모집단에 대해 추론하기 위해)

 

 

Hypothesis Test: H0 & Ha - concepts

1. Hypothesis Testing? → Null Hypothesis(H0) 🙆‍♂️ 1▶ Create a Hypothesis (without stating H0) ▷ (if data gives us strong evidence that the hypothesis is wrong) we can reject the Hypothes..

sh-avid-learner.tistory.com

 


즉! 정리를 하자면

'sample로 뽑은 sample 그 자체의 관찰할 때 쓰이는 것이 descriptive statistics'

&

'descriptive statistics로 여러 정보를 얻은 sample의 data를 기반으로 전체 population을 추론하는 inferential statistics'

 

(+) 여기서 sampling 기법은 크게 4가지로

simple random sampling, systematic sampling, cluster sampling, stratified sampling 존재

 

 

<추정과 검정> - 표본추출법 (w/ python code) (1/2)

- (아래) (제 1 - 2 - 3 - 4분면 순서대로) 단순임의추출법 - 계통추출법 - 집락추출법 - 층화추출법 - ** 앞선 포스팅에서 우리는 통계적 추론에 대해서 배웠고, 모집단에서 표본을 추출하여 여러 통

sh-avid-learner.tistory.com

 

 

<추정과 검정> - 표본추출법 (w/ python code) (2/2)

- 오늘은 하단 두개 (좌) 집락추출법 (우) 층화추출법에 대해서 배워보자 - Q) 모집단에서 표본을 추출하는 또 다른 두가지 방법? A) 집락추출법/층화추출법 (단순임의추출/계통추출은 하단 포스

sh-avid-learner.tistory.com

 


* 출처) https://careerfoundry.com/en/blog/data-analytics/inferential-vs-descriptive-statistics/

* 출처1) https://drhongdatanote.tistory.com/25

* 출처2) https://www.scribbr.com/frequently-asked-questions/whats-the-difference-between-descriptive-and-inferential-statistics/

* 출처3) https://m.blog.naver.com/yk60park/222100758577

* 출처4) https://statisticsbyjim.com/basics/descriptive-inferential-statistics/

댓글