전체 글 - Table of Contents332

<추정과 검정> - 추론 개요 1. 통계적 추론 개요 [1] 관련 기본 개념 → 모집단 = 관심대상을 다 모아 둔 것 → 모수 = 해당 모집단(↑)을 대표하는 값. 모집단의 특징을 요약하는 '수' (예를 들면 모집단의 평균, 분산) "but 우리가 알고 싶어하는 모집단을 이용하려면 시간 & 비용이 너무 많이 소요된다. 따라서 일부 표본을 추출!" → 표본 = 모집단에서 n개의 표본을 추출 (X1, X2 ~ Xn) (여기서 표본을 어떻게 추출하느냐? 다양한 표본 추출법이 있으며 그 내용은 다음 포스팅에) → 표본자료 = 추출한 표본에서 구하고자 하는 대응값 (x1, x2 ~ xn) (무슨 말이냐면... 우리가 모집단의 어떤 '값'에 대해 애초에 궁금했을 것이다. 예를 들면 우리나라 성인 '비만도'라는 값에 대해 궁금했다고 치자. 그러면.. Statistics/Concepts(+codes) 2022. 3. 24.
Hypothesis Test: H0 & Ha - concepts 1. Hypothesis Testing? → Null Hypothesis(H0) 🙆‍♂️ 1▶ Create a Hypothesis (without stating H0) ▷ (if data gives us strong evidence that the hypothesis is wrong) we can reject the Hypothesis ▷ (but when we have data that is similar to the hypothesis but not exactly the same) fail to reject the Hypothesis (best we can do) (because it's unclear if the hypothesis should be based on many different res.. Statistics/Concepts(+codes) 2022. 3. 24.
folium 시각화 ♣ 지도 표현 - 위치를 보여주는 시각화 library ♣ 1. code & 출력 결과 (예시) 1> 설치 !pip install folium 2> import import folium 3> folium 내의 Map & Marker method를 활용한다 - ex) code 1) map =folium.Map( location=(37.5012748,127.039625),zoom_start=14 ) mk = folium.Marker( location=(37.5012748,127.039625),popup='test1') mk.add_to(map) mk1 = folium.Marker( location=(37.5112748,127.039625),popup='test2') mk1.add_to(map) map - e.. Visualizations/Various Graphs 2022. 3. 24.
list comprehension Q. list comprehension? A. list 안에 for문(+if문)을 포함시켜 편리 & 직관적인 프로그래밍 짜기 [f(x) for x in nums] → filter condition 추가도 가능! (if문) [f(x) for x in nums if g(x)] → ex) list안에 있는 element들을 한 줄만으로(👍) element 제곱형태로 표현 가능! nums = [1,2,3,4] result = [x*x for x in nums] #result == [1,4,9,16] nums = [1,2,3,4] result = [x*x for x in nums if x%2 == 0] #result == [4,16] (+) Map + filter → ex) nums = [1,2,3,4] list.. Python/Pandas&Numpy 2022. 3. 23.
pandas functions - cut, qcut ♠'cut' documentation https://pandas.pydata.org/docs/reference/api/pandas.cut.html ♠'qcut' documentation https://pandas.pydata.org/docs/reference/api/pandas.qcut.html 1. cut ✂️ → bin values into discrete intervals. Use cut when you need to segment and sort data values into bins. This function is also useful for going from a continuous variable to a categorical variable. For example, cut could con.. Python/Pandas&Numpy 2022. 3. 23.
Q) NaN - dataframe 분포 그림으로 확인할 방법? A) missingno를 import하면 됩니다! → missingno를 import 합니다 import missingno as msno → 시각화로 나타나기 위해 matplotlib를 준비. %matplotlib inline → matrix method) NaN 분포를 알고 싶은 dataframe 이름을 인자로 넣습니다. (matrix에 여러 인자를 넣어 graphical하게 다양한 형태로 표현 가능) msno.matrix(df_name) → graph 해석) NaN이 없으면 검정색, 존재하면 하얀 선으로 표시됩니다. (즉 하얀 공간이 많을수록 NaN이 많다고 보시면 되겠습니다.) ex) - NaN값이 하나도 없습니다. 검정색이 빽빽히 칠해진 직사각형들의 모임입니다. - - Gender column에 .. Failures & Issues/problem-solution 2022. 3. 23.
pandas Tricks_01 👉🏻 'Reverse (row/column) Order' (Kevin by DataSchool) Q) 데이터프레임이 주어졌다. 근데 내가 원하는 데이터는 행 기준 아래 부분. 데이터 용량이 워낙 커서 데이터 훑기도 힘들다면 A) '행과 열 순서 바꾸기' 👉🏻 .loc[::-1] & .loc[:,::-1] 사용하기 (tail()도 있지만, 데이터프레임 자체의 행/열 구성을 바꿔주지는 않는다!) 1> seaborn 내장 iris dataset 가져오자. import seaborn as sns df_iris = sns.load_dataset('iris') df_iris.head() 2> loc[::-1] 사용. df_iris.loc[::-1].head() 3> 마음에 드는데 index가 걸린다. 다시 index를 reset 해보자(즉, index를 0부터 맞추잔 소리) (reset_index) → 원래 .. Python/Pandas&Numpy 2022. 3. 23.
data 분석 개요 & (1) 문제 정의, (2) 수집 1. 데이터 분석 및 개요 = 저장된 데이터에서 의미 있는 정보를 얻기 위한 과정 Q) 데이터 분석의 목표? = 데이터 분석을 통해 데이터를 활용함으로써 경제적 가치를 창출하는 것! [1] 데이터 활용 사례 * 미국 T-mobile 사 - 미국 내 휴대폰 통신 사업자를 대상으로 통화패턴을 분석하여 이탈고객을 방지한 사례 * sensor 데이터 관리 사례 - volvo 신차의 운행 과정에서 발생하는 각종 sensor 데이터 활용 : 해당 데이터를 활용함으로서 제품개발에서 찾기 어려운 결함 & 고객의 요구를 분석 - 과거에는 50만대의 차량이 팔린 후 알 수 있던 결함을 단지 1,000대 판매 시점에 바로 포착 - 결국 대규모 리콜 상태를 방지함으로서 비용을 절감할 수 있었다. [2] 데이터 분석의 역할 *.. Computer Science/Basics 2022. 3. 23.
FE - Feature Engineering 1. Concepts * In real world, data is really messy - we need to clean the data * FE = a process of extracting useful features from raw data using math, statistics and domain knowledge - 즉, 도메인 지식과 창의성을 바탕으로 dataset에 존재하는 feature들을 재조합하여 새로운 feature를 만드는 과정이다 - 기존 feature끼리 재조합하여 새로운 열을 만들어내거나, 기존 feature에 조건식을 걸어 새로운 열을 만들어내기, 기존 열의 dtype 변환 - 분석의 결과, 모델링의 아웃풋 향상을 위해서 더 의미있는 패턴을 발견하기 위해 사용 - clea.. Computer Science/Concepts 2022. 3. 22.
EDA - Exploratory Data Analysis 1. concepts & goals → 탐색적 데이터 분석 - 수집한 데이터를 본격적으로 분석하기 전에 자료를 직관적으로 바라보는 과정이 필요한데, 이때 EDA를 사용한다 - 데이터 분석의 한 종류로 복잡한 모델링이나 수식을 쓰지 않고 데이터를 말 그대로 탐색하는 것이다. - it allows you to examine the data as they are without making any assumptions..! - 탐색! 즉 결측치, 이상치, dtypes, shape, 새로운 data 생성(기존 data 이용), fillna() 모두 포괄하는 개념이라 할 수 있다 - 시각화 같은 도구를 통해서 패턴을 발견 & 데이터의 특이성 확인 & 통계와 그래픽(혹은 시각화)을 통해 가설을 검정 * [EDA me.. Computer Science/Concepts 2022. 3. 22.
(예제) - 한국 도쿄올림픽 medal count 가져오기 - ! -- 저번 포스팅에서는 HTML 형식의 파일이 존재한다면 open()을 이용해서 가져오고 BeautifulSoup parsing을 통해 직접 데이터를 검색했던 적이 있었다. 이번에는 직접 web browser url을 이용하여 web page를 가져오고 원하는 data를 찾아 출력하는 실습을 해보겠다 -- ! (하단 HTML file - BeautifulSoup 검색 포스팅) HTML 문서를 BeautifulSoup으로 검색하기 (+re module) ! -- web browser에서 직접적인 url을 가져와 parsing하는 web crawling은 아니지만 web에 존재하는(또는 컴퓨터에 자체적으로 존재하는) HTML file 내용을 가져와 나타내는 방법을 알아본다 -- ! ** Beautiful.. Python/Web Crawling+Scraping 2022. 3. 22.
HTML 문서를 BeautifulSoup으로 검색하기 (+re module) ! -- web browser에서 직접적인 url을 가져와 parsing하는 web crawling은 아니지만 web에 존재하는(또는 컴퓨터에 자체적으로 존재하는) HTML file 내용을 가져와 나타내는 방법을 알아본다 -- ! ** BeautifulSoup library tolerates highly flawed HTML & still lets you easily extract the data you need (repairs & parses HTML to make it easier for a program to understand) 1. import & parsing 1> BeautifulSoup import 2> open()의 read() method를 사용하여 sample.html file을 받는.. Python/Web Crawling+Scraping 2022. 3. 21.