Computer Science/Concepts6

Tidy Data * 실제 사용되는 데이터는 하나의 완벽한 dataset이 아닌 여러 개로 쪼개진 경우가 많다! → 따라서 분석하기 용이하게 하나의 dataset으로 만들기 위한 과정이 필요 1. Tidy Data란? "각 변수가 열이고 각 관측치가 행으로 배열된 data (by Hadley Wickham)" - columns에 있던 data를 row로 녹인다고 생각하면 쉬움! - seaborn 시각화할 때 짧은 코드로 가능! (매우 편리) ↓↓↓↓ box plot 시각화할 때 사용한 tidy data 예 살펴보기 ↓↓↓↓ violin plot (+seaborn) * EDA에 대해 알아보았고 EDA 과정에서 많이 쓰이는 시각화 방법 중 box plot에 대해 자세히 알아보았다. box plot (+seaborn) * 저번.. Computer Science/Concepts 2022. 4. 13.
REST API example - Coingecko API 👋 저번 시간에 section에서 REST API에 대해 배운 적이 있다..! Tools for Data Science (from Coursera) 1. Data Scientist's Toolkit [1] Languages of Data Science # Python → by far the most popular programming language for data science → it uses clear, readable syntax. You can do many of the thi.. sh-avid-learner.tistory.com 💪 요약하자면, API중 HTTP 방식으로 client와 web service 간 메세지를 주고 받는 방식을 REST API라고 함. '* Rest API’s func.. Computer Science/Concepts 2022. 3. 30.
Tabular Data 🗄️ Tabular Data is... 1. Data organized into a table 2. Table is a grid of data 3. Column must be same type (homogenous data) 4. (but) Row can contain many types (heterogenous data) (ofc each elements of the tabular data has different types) - Tabular Data example - Tabular Data is composed of... 1) observations - a row 2) variables - a column 3) relationships - relationship between the tables (con.. Computer Science/Concepts 2022. 3. 26.
Data Preprocessing * concepts🤲 ⊙ Although EDA and Data Preprocessing are two distinct terms, they involve many overlapping subtasks. At times, they are even used interchangeably ⊙ → 즉! 모아진 raw data를 data preprocessing 단계를 거치고 난 뒤, preprocessed된 data를 통해 EDA 과정을 거치고 또 data preprocessing하는 과정을 거치는 것처럼 서로 상호작용하며 같이 꼭 행해져야 하는 과정이라 할 수 있다 (EDA 과정 내에 data preprocessing이 들어간다고도 말하기도 함!) - 하지만 확실한 건 EDA에 들어가는 data insight.. Computer Science/Concepts 2022. 3. 25.
FE - Feature Engineering 1. Concepts * In real world, data is really messy - we need to clean the data * FE = a process of extracting useful features from raw data using math, statistics and domain knowledge - 즉, 도메인 지식과 창의성을 바탕으로 dataset에 존재하는 feature들을 재조합하여 새로운 feature를 만드는 과정이다 - 기존 feature끼리 재조합하여 새로운 열을 만들어내거나, 기존 feature에 조건식을 걸어 새로운 열을 만들어내기, 기존 열의 dtype 변환 - 분석의 결과, 모델링의 아웃풋 향상을 위해서 더 의미있는 패턴을 발견하기 위해 사용 - clea.. Computer Science/Concepts 2022. 3. 22.
EDA - Exploratory Data Analysis 1. concepts & goals → 탐색적 데이터 분석 - 수집한 데이터를 본격적으로 분석하기 전에 자료를 직관적으로 바라보는 과정이 필요한데, 이때 EDA를 사용한다 - 데이터 분석의 한 종류로 복잡한 모델링이나 수식을 쓰지 않고 데이터를 말 그대로 탐색하는 것이다. - it allows you to examine the data as they are without making any assumptions..! - 탐색! 즉 결측치, 이상치, dtypes, shape, 새로운 data 생성(기존 data 이용), fillna() 모두 포괄하는 개념이라 할 수 있다 - 시각화 같은 도구를 통해서 패턴을 발견 & 데이터의 특이성 확인 & 통계와 그래픽(혹은 시각화)을 통해 가설을 검정 * [EDA me.. Computer Science/Concepts 2022. 3. 22.