Statistics24

MLE for the normal distribution 🔊 저번 시간에 MLE에 대해서 배웠다. 그리고 예제로 MLE 기법을 logistic regression에 적용해 최적의 sigmoid 함수를 어떻게 구하는 지 수학적으로 수식을 통해 알아보았다. 🔊 이번 시간에는 logistic이 아닌 normal distribution에 MLE 기법을 적용해 주어진 data를 가장 잘 설명하는 normal distribution의 두 모수인 $\mu$와 $\sigma$를 찾아 최적의 normal distribution을 알아보는 시간을 가져보려 한다. Maximum Likelihood Estimation(MLE) 🌟 로지스틱 회귀 포스팅에서 MLE기법을 통해 model을 결정한다고 하였다. 로지스틱 회귀의 식을 더 deep하게 수학적으로 들어가, 어떤 모델을 고를 지.. Statistics/Concepts(+codes) 2022. 6. 27.
Maximum Likelihood Estimation(MLE) 🌟 로지스틱 회귀 포스팅에서 MLE기법을 통해 model을 결정한다고 하였다. 로지스틱 회귀의 식을 더 deep하게 수학적으로 들어가, 어떤 모델을 고를 지 수식으로 연산하는 과정에서 MLE가 핵심으로 사용되는데, 이번 시간에는 MLE를 수학적인 개념으로 좀 더 자세하게(꽤 deep하게) 알아보고자 한다. 🌟 추가로 아래 그림에서 보듯이 추후 포스팅에서는 로지스틱 회귀와 MLE를 같이 연관시켜 알아보자! * 정의 & concepts> 🌟 모수적인 데이터 밀도 추정방법으로, 파라미터 $\theta = (\theta_1, ... , \theta_m)$으로 구성된 어떤 확률밀도함수 $P(x|\theta)$에서 관측된 표본 데이터 집합을 $x = (x_1, x_2, ... , x_n)$이라 할 때, 이 표본들에.. Statistics/Concepts(+codes) 2022. 6. 26.
Auto-correlation + Durbin-Watson test 🌷 residual plot에서의 error관련 성질로 auto-corrleation을 무조건 짚고 넘어가는 경우가 많은데, 해당 corrleation이 무엇인지 알아보고 🌷 해당 auto-correlation이 존재하는 지 알아보기 위한 두 가지 방법 - Durbin-Watson test & Breusch-Godfrey test를 알아보자 * linear regression model 가정 → auto-correlation concepts 🍂 위 전제 2번에서 잔차 - residual에 대해 설명할 때, 잔차를 시각화한 residual plot에서 여러 error terms 오차항이 형성하는 일종의 pattern이 존재한다면 자기상관성 auto-correlation이 존재한다고 하였다. 🍂 저번 cou.. Statistics/Concepts(+codes) 2022. 6. 17.
Bayesian Theorem 😺 이미 베이지안 이론과 관련한 문제에 대해서 옛날 포스팅에 다룬 바 있었다! Bayesian Theorem '(example - 2 exercises) Q1) At a certain stage of a criminal investigation, ①the inspector in charge is 60% convinced of the guilty of a certain suspect. Suppose now that a new piece of evidence that shows that ②th.. sh-avid-learner.tistory.com 😺 이젠 베이지안 이론에 관해 자세히 concept에 대해 알아보려 함! concepts> 🖐🏻 베이즈 정리는 한 마디로 '데이터라는 조건이 주어졌을 때의 조건부확.. Statistics/Concepts(+codes) 2022. 5. 7.
distribution》poisson distribution (포아송분포) * 이항분포 특성이나 개형이 비슷한 포아송 분포에 대해서 알아보자! distribution》binomial distribution (이항분포) * 확률분포 여태까지 총 3개에 대해서 배웠다 (z-분포 포함) 🎄 student's t-distribution distribution≫ Student's t-distribution (in-depth) ✋ 통계에 있어서 빼먹지 않아야 할, 무조건 숙지해야 할 '통계분.. sh-avid-learner.tistory.com concepts> 👑 어떤 단위공간에 내가 관심있는 사건이 몇 번 발생했는 가를 알고 싶을 떄 모델링하기 위해서 주로 활용 👑 주로 단위공간에서 우리가 관심있어하는 사건이 발생할 가능성이 희박한 경우 - 발생횟수를 모델링할 때 포아송 분포가 유용하.. Statistics/Concepts(+codes) 2022. 5. 6.
distribution》binomial distribution (이항분포) * 확률분포 여태까지 총 3개에 대해서 배웠다 (z-분포 포함) 🎄 student's t-distribution distribution≫ Student's t-distribution (in-depth) ✋ 통계에 있어서 빼먹지 않아야 할, 무조건 숙지해야 할 '통계분포' 개념 오늘은 가장 많이 사용하고 꼭 알아야 할 t-분포에 대해서 알아보려 한다 사실 저번 두 포스팅에서 t-분포에의 검정통계 sh-avid-learner.tistory.com 🎄 𝜒2 distribution 𝜒2 distribution + One-Sample 𝜒2 test 😽 저번 시간에 parametric vs. non-parametric 차이에 대해서 배웠다. 😽 이번 포스팅에는 non-parametric test를 처음으로 배워보려.. Statistics/Concepts(+codes) 2022. 5. 6.
Central Limit Theorem (CLT; 중심극한정리) 🐕 통계적으로 꼭 알아야 할 개념(기초)인 CLT - 중심극한정리에 대해서 짚고 넘어가보자! concepts> * 용어 정확히 (terminology) 🐕 ①sample 데이터 수가 많아질수록 ②sample의 평균은 ③모집단에 관계없이 ④정규분포에 근사한 형태로 나타난다 - 자세히 보자 - ①sample 데이터 수가 많아질수록 🙆🏾‍♀️ sample size는 최소 30이어야 한다 ②sample의 평균 🙆🏾‍♀️ sample의 평균을 구할 수 있는 분포(모집단)여야 한다 (근데 cauchy 분포를 제외하고는 거의 없다 보면 됨!) (sample의 평균 = sample 내 sample size 개수만큼 있는 data들의 평균) ③모집단에 관계없이 🙆🏾‍♀️ 모집단이 어떤 분포이든 상관이 없다. 무조건 모든.. Statistics/Concepts(+codes) 2022. 5. 5.
Law of Large Numbers (큰 수의 법칙; LLN) 👨🏾‍🔬 sample data 수가 커질수록, sample의 통계치는 점점 모집단의 모수와 같아진다는 뜻! ★ 구체적이게 말하면 'the mean of your sample is going to converge to the true mean of the population or to the expected value of the random variable' 👨🏾‍🔬 일반적으로 sample의 수가 30개 이상이면 큰 수의 법칙이 적용된다고 한다 👨🏾‍🔬 너무나 당연한 내용이므로..! 빠르게 훑고 넘어가자 🧚🏾 concepts - wikipedia - 'In probability theory, the law of large numbers (LLN) is a theorem that describes the .. Statistics/Concepts(+codes) 2022. 5. 5.
f distribution 🤠 저번 시간에 총 두 개의 분포 student's t-distribution & 𝜒2 distribution에 대해서 배웠다 (z-distribution과 더불어!) 🧚🏾‍♂️ student's t-distribution distribution≫ Student's t-distribution (in-depth) ✋ 통계에 있어서 빼먹지 않아야 할, 무조건 숙지해야 할 '통계분포' 개념 오늘은 가장 많이 사용하고 꼭 알아야 할 t-분포에 대해서 알아보려 한다 사실 저번 두 포스팅에서 t-분포에의 검정통계 sh-avid-learner.tistory.com 🧚🏾‍♂️ 𝜒2 distribution 𝜒2 distribution + One-Sample 𝜒2 test 😽 저번 시간에 parametric vs. non.. Statistics/Concepts(+codes) 2022. 5. 4.
Two-Samples 𝜒2 test ✈️ 저번 시간에 여러 statistical hypothesis test 중 chi-square test 첫 번째인 'one sample 𝜒2 test'에 대해서 배웠다. ✈️ 이젠 그 두 번째! 훨씬 더 많이 쓰이는 two-samples 𝜒2 test에 대해 다루려고 함! 𝜒2 distribution + One-Sample 𝜒2 test 😽 저번 시간에 parametric vs. non-parametric 차이에 대해서 배웠다. 😽 이번 포스팅에는 non-parametric test를 처음으로 배워보려 함! 카이제곱 검정 첫번째 test - 적합도 검정에 대해서 알아보ZA! 🤩 (독 sh-avid-learner.tistory.com * test of independence 검정원리 ✌🏿 2개의 범주형 .. Statistics/Concepts(+codes) 2022. 5. 3.
𝜒2 distribution + One-Sample 𝜒2 test 😽 저번 시간에 parametric vs. non-parametric 차이에 대해서 배웠다. 😽 이번 포스팅에는 non-parametric test를 처음으로 배워보려 함! 카이제곱 검정 첫번째 test - 적합도 검정에 대해서 알아보ZA! 🤩 (독립성 검정은 다음 시간에) 🤲 범주형 변수를 statistical test에 활용하는 경우 카이제곱검정이 많이 사용된다! 🤲 카이제곱은 크게 두 가지로 나눈다. ① 적합도 검정 - Goodness of Fit Test = '하나의 범주형 변수에 대해 각 범주별 확률에 관한 검정' → compare multiple observed proportions to expected probabilities → 예) 어느 지역의 주거 형태가 아파트, 오피스텔, 주택 이렇게.. Statistics/Concepts(+codes) 2022. 5. 2.
Parametric vs. Non-Parametric Tests 👩‍🔬 Parametric(모수적) & Non-Parametric(비모수적) test 종류 구별은 매우 중요하다! 👩‍🔬 간략히 말하자면 모수적 방법은 data의 분포를 가정 (주로 정규성 - normal distribution)한 채 hypothetical test를 진행하는 방식(모집단에 대한 정보를 알고 있는 채로 진행)이고 & 비모수적 방법은 그런 분포가 아예 존재하지 않는다 생각하고 진행하는 방법(모집단에 대한 정보가 없음)이다. 👩‍🔬 일단 분포를 가정하고 시작하는, 대부분의 test로 모수적 방법을 진행하는 Parametric Method의 장점들부터 알아보자 Parametric Methods - 장점 1> 🙋‍♀️ skewed되거나 특정 방향으로 치우치지 않은 분포여도 신뢰할 만한 결과를 .. Statistics/Concepts(+codes) 2022. 5. 2.