Computer Science66

Tools for Data Science (from Coursera) 1. Data Scientist's Toolkit [1] Languages of Data Science # Python → by far the most popular programming language for data science → it uses clear, readable syntax. You can do many of the things you are used to doing in other programming languages but with Python you can do it with less code. → a high-level general-purpose programming language that can be applied to many different classes of pro.. Computer Science/Basics and Concepts 2022. 3. 26.
Tabular Data 🗄️ Tabular Data is... 1. Data organized into a table 2. Table is a grid of data 3. Column must be same type (homogenous data) 4. (but) Row can contain many types (heterogenous data) (ofc each elements of the tabular data has different types) - Tabular Data example - Tabular Data is composed of... 1) observations - a row 2) variables - a column 3) relationships - relationship between the tables (con.. Computer Science/Concepts 2022. 3. 26.
Data Preprocessing * concepts🤲 ⊙ Although EDA and Data Preprocessing are two distinct terms, they involve many overlapping subtasks. At times, they are even used interchangeably ⊙ → 즉! 모아진 raw data를 data preprocessing 단계를 거치고 난 뒤, preprocessed된 data를 통해 EDA 과정을 거치고 또 data preprocessing하는 과정을 거치는 것처럼 서로 상호작용하며 같이 꼭 행해져야 하는 과정이라 할 수 있다 (EDA 과정 내에 data preprocessing이 들어간다고도 말하기도 함!) - 하지만 확실한 건 EDA에 들어가는 data insight.. Computer Science/Concepts 2022. 3. 25.
data 분석 개요 & (1) 문제 정의, (2) 수집 1. 데이터 분석 및 개요 = 저장된 데이터에서 의미 있는 정보를 얻기 위한 과정 Q) 데이터 분석의 목표? = 데이터 분석을 통해 데이터를 활용함으로써 경제적 가치를 창출하는 것! [1] 데이터 활용 사례 * 미국 T-mobile 사 - 미국 내 휴대폰 통신 사업자를 대상으로 통화패턴을 분석하여 이탈고객을 방지한 사례 * sensor 데이터 관리 사례 - volvo 신차의 운행 과정에서 발생하는 각종 sensor 데이터 활용 : 해당 데이터를 활용함으로서 제품개발에서 찾기 어려운 결함 & 고객의 요구를 분석 - 과거에는 50만대의 차량이 팔린 후 알 수 있던 결함을 단지 1,000대 판매 시점에 바로 포착 - 결국 대규모 리콜 상태를 방지함으로서 비용을 절감할 수 있었다. [2] 데이터 분석의 역할 *.. Computer Science/Basics and Concepts 2022. 3. 23.
FE - Feature Engineering 1. Concepts * In real world, data is really messy - we need to clean the data * FE = a process of extracting useful features from raw data using math, statistics and domain knowledge - 즉, 도메인 지식과 창의성을 바탕으로 dataset에 존재하는 feature들을 재조합하여 새로운 feature를 만드는 과정이다 - 기존 feature끼리 재조합하여 새로운 열을 만들어내거나, 기존 feature에 조건식을 걸어 새로운 열을 만들어내기, 기존 열의 dtype 변환 - 분석의 결과, 모델링의 아웃풋 향상을 위해서 더 의미있는 패턴을 발견하기 위해 사용 - clea.. Computer Science/Concepts 2022. 3. 22.
EDA - Exploratory Data Analysis 1. concepts & goals → 탐색적 데이터 분석 - 수집한 데이터를 본격적으로 분석하기 전에 자료를 직관적으로 바라보는 과정이 필요한데, 이때 EDA를 사용한다 - 데이터 분석의 한 종류로 복잡한 모델링이나 수식을 쓰지 않고 데이터를 말 그대로 탐색하는 것이다. - it allows you to examine the data as they are without making any assumptions..! - 탐색! 즉 결측치, 이상치, dtypes, shape, 새로운 data 생성(기존 data 이용), fillna() 모두 포괄하는 개념이라 할 수 있다 - 시각화 같은 도구를 통해서 패턴을 발견 & 데이터의 특이성 확인 & 통계와 그래픽(혹은 시각화)을 통해 가설을 검정 * [EDA me.. Computer Science/Concepts 2022. 3. 22.