전체 글 - Table of Contents332 distribution》poisson distribution (포아송분포) * 이항분포 특성이나 개형이 비슷한 포아송 분포에 대해서 알아보자! distribution》binomial distribution (이항분포) * 확률분포 여태까지 총 3개에 대해서 배웠다 (z-분포 포함) 🎄 student's t-distribution distribution≫ Student's t-distribution (in-depth) ✋ 통계에 있어서 빼먹지 않아야 할, 무조건 숙지해야 할 '통계분.. sh-avid-learner.tistory.com concepts> 👑 어떤 단위공간에 내가 관심있는 사건이 몇 번 발생했는 가를 알고 싶을 떄 모델링하기 위해서 주로 활용 👑 주로 단위공간에서 우리가 관심있어하는 사건이 발생할 가능성이 희박한 경우 - 발생횟수를 모델링할 때 포아송 분포가 유용하.. Statistics/Concepts(+codes) 2022. 5. 6. distribution》binomial distribution (이항분포) * 확률분포 여태까지 총 3개에 대해서 배웠다 (z-분포 포함) 🎄 student's t-distribution distribution≫ Student's t-distribution (in-depth) ✋ 통계에 있어서 빼먹지 않아야 할, 무조건 숙지해야 할 '통계분포' 개념 오늘은 가장 많이 사용하고 꼭 알아야 할 t-분포에 대해서 알아보려 한다 사실 저번 두 포스팅에서 t-분포에의 검정통계 sh-avid-learner.tistory.com 🎄 𝜒2 distribution 𝜒2 distribution + One-Sample 𝜒2 test 😽 저번 시간에 parametric vs. non-parametric 차이에 대해서 배웠다. 😽 이번 포스팅에는 non-parametric test를 처음으로 배워보려.. Statistics/Concepts(+codes) 2022. 5. 6. Central Limit Theorem (CLT; 중심극한정리) 🐕 통계적으로 꼭 알아야 할 개념(기초)인 CLT - 중심극한정리에 대해서 짚고 넘어가보자! concepts> * 용어 정확히 (terminology) 🐕 ①sample 데이터 수가 많아질수록 ②sample의 평균은 ③모집단에 관계없이 ④정규분포에 근사한 형태로 나타난다 - 자세히 보자 - ①sample 데이터 수가 많아질수록 🙆🏾♀️ sample size는 최소 30이어야 한다 ②sample의 평균 🙆🏾♀️ sample의 평균을 구할 수 있는 분포(모집단)여야 한다 (근데 cauchy 분포를 제외하고는 거의 없다 보면 됨!) (sample의 평균 = sample 내 sample size 개수만큼 있는 data들의 평균) ③모집단에 관계없이 🙆🏾♀️ 모집단이 어떤 분포이든 상관이 없다. 무조건 모든.. Statistics/Concepts(+codes) 2022. 5. 5. Law of Large Numbers (큰 수의 법칙; LLN) 👨🏾🔬 sample data 수가 커질수록, sample의 통계치는 점점 모집단의 모수와 같아진다는 뜻! ★ 구체적이게 말하면 'the mean of your sample is going to converge to the true mean of the population or to the expected value of the random variable' 👨🏾🔬 일반적으로 sample의 수가 30개 이상이면 큰 수의 법칙이 적용된다고 한다 👨🏾🔬 너무나 당연한 내용이므로..! 빠르게 훑고 넘어가자 🧚🏾 concepts - wikipedia - 'In probability theory, the law of large numbers (LLN) is a theorem that describes the .. Statistics/Concepts(+codes) 2022. 5. 5. f distribution 🤠 저번 시간에 총 두 개의 분포 student's t-distribution & 𝜒2 distribution에 대해서 배웠다 (z-distribution과 더불어!) 🧚🏾♂️ student's t-distribution distribution≫ Student's t-distribution (in-depth) ✋ 통계에 있어서 빼먹지 않아야 할, 무조건 숙지해야 할 '통계분포' 개념 오늘은 가장 많이 사용하고 꼭 알아야 할 t-분포에 대해서 알아보려 한다 사실 저번 두 포스팅에서 t-분포에의 검정통계 sh-avid-learner.tistory.com 🧚🏾♂️ 𝜒2 distribution 𝜒2 distribution + One-Sample 𝜒2 test 😽 저번 시간에 parametric vs. non.. Statistics/Concepts(+codes) 2022. 5. 4. Two-Samples 𝜒2 test ✈️ 저번 시간에 여러 statistical hypothesis test 중 chi-square test 첫 번째인 'one sample 𝜒2 test'에 대해서 배웠다. ✈️ 이젠 그 두 번째! 훨씬 더 많이 쓰이는 two-samples 𝜒2 test에 대해 다루려고 함! 𝜒2 distribution + One-Sample 𝜒2 test 😽 저번 시간에 parametric vs. non-parametric 차이에 대해서 배웠다. 😽 이번 포스팅에는 non-parametric test를 처음으로 배워보려 함! 카이제곱 검정 첫번째 test - 적합도 검정에 대해서 알아보ZA! 🤩 (독 sh-avid-learner.tistory.com * test of independence 검정원리 ✌🏿 2개의 범주형 .. Statistics/Concepts(+codes) 2022. 5. 3. Visualization - Graphs summarized 🤫 데이터분석에 있어서 빼놓지 말고 꼭! 알아야 할 시각화 그래프 종류들 🤫 수시로 UPDATE하며 여러 그래프들의 특징을 정리해본다 :) kind represents.. data etc. line plot trend-based (over a period of time) continuous area plot accumulated totals two or more quantities stacked / unstacked histogram frequency (x-axis: bins / y-axis: frequency) bar chart (bar graph) compare the rules of a variable at a given point in time time-series * the length of b.. Visualizations/Various Graphs 2022. 5. 2. 𝜒2 distribution + One-Sample 𝜒2 test 😽 저번 시간에 parametric vs. non-parametric 차이에 대해서 배웠다. 😽 이번 포스팅에는 non-parametric test를 처음으로 배워보려 함! 카이제곱 검정 첫번째 test - 적합도 검정에 대해서 알아보ZA! 🤩 (독립성 검정은 다음 시간에) 🤲 범주형 변수를 statistical test에 활용하는 경우 카이제곱검정이 많이 사용된다! 🤲 카이제곱은 크게 두 가지로 나눈다. ① 적합도 검정 - Goodness of Fit Test = '하나의 범주형 변수에 대해 각 범주별 확률에 관한 검정' → compare multiple observed proportions to expected probabilities → 예) 어느 지역의 주거 형태가 아파트, 오피스텔, 주택 이렇게.. Statistics/Concepts(+codes) 2022. 5. 2. Parametric vs. Non-Parametric Tests 👩🔬 Parametric(모수적) & Non-Parametric(비모수적) test 종류 구별은 매우 중요하다! 👩🔬 간략히 말하자면 모수적 방법은 data의 분포를 가정 (주로 정규성 - normal distribution)한 채 hypothetical test를 진행하는 방식(모집단에 대한 정보를 알고 있는 채로 진행)이고 & 비모수적 방법은 그런 분포가 아예 존재하지 않는다 생각하고 진행하는 방법(모집단에 대한 정보가 없음)이다. 👩🔬 일단 분포를 가정하고 시작하는, 대부분의 test로 모수적 방법을 진행하는 Parametric Method의 장점들부터 알아보자 Parametric Methods - 장점 1> 🙋♀️ skewed되거나 특정 방향으로 치우치지 않은 분포여도 신뢰할 만한 결과를 .. Statistics/Concepts(+codes) 2022. 5. 2. Data Visualization with Python (1/2) (from Coursera) 1. Introduction to Data Visualization Tools 1) Why Build Visuals? * for exploratory data analysis(EDA) * communicate data clearly * share unbiased representation of data * use them to support recommendations to different stakeholders * always remember → 'Less is more effective' → 'Less is more attractive' → 'Less is more impactive' ex) - simple / cleaner / less distracting / much easier to read .. Visualizations/Fundamentals 2022. 5. 1. Decision Trees (concepts) 'Decision Trees (DTs) are a non-parametric supervised learning method used for classification and regression. The goal is to create a model that predicts the value of a target variable by learning simple decision rules inferred from the data features. A tree can be seen as a piecewise constant approximation.' ▩ 앞서 소개했던 model list ▩ 👓 SLR 단순선형회귀모델 👓 MLR 다중선형회귀모델 👓 RR 릿지회귀모델 👓 LR 로지스틱회귀모델 🤠 이젠 reg.. Machine Learning/Models (with codes) 2022. 4. 27. Types of Errors in Hypothesis Testing 👄 이번 포스팅에서는 우리가 무조건 마주하게 되는 두 가지 ERROR! 타입에 대해서 알아보려 한다! 🤝 👄 전체 모집단 population에 대한 충분한 정보가 제공되지 않았기 때문에! 우리는 sample을 이용하여 전체 population에 대한 추론을 하는 과정을 거친다. 이런 추론 과정을 일종의 hypothesis testing이라 하며, 이 testing 과정에서 우리는 당연히 sample만을 가지고 추론하기에 여러 error에 마주치게 됨 Hypothesis Test: H0 & Ha - concepts 1. Hypothesis Testing? → Null Hypothesis(H0) 🙆♂️ 1▶ Create a Hypothesis (without stating H0) ▷ (if data giv.. Statistics/Concepts(+codes) 2022. 4. 27. 이전 1 ··· 16 17 18 19 20 21 22 ··· 28 다음