Computer Science65

Tools for Data Science (from Coursera) 1. Data Scientist's Toolkit [1] Languages of Data Science # Python → by far the most popular programming language for data science → it uses clear, readable syntax. You can do many of the things you are used to doing in other programming languages but with Python you can do it with less code. → a high-level general-purpose programming language that can be applied to many different classes of pro.. Computer Science/Basics and Concepts 2022. 3. 26.
Tabular Data 🗄️ Tabular Data is... 1. Data organized into a table 2. Table is a grid of data 3. Column must be same type (homogenous data) 4. (but) Row can contain many types (heterogenous data) (ofc each elements of the tabular data has different types) - Tabular Data example - Tabular Data is composed of... 1) observations - a row 2) variables - a column 3) relationships - relationship between the tables (con.. Computer Science/Concepts 2022. 3. 26.
Data Preprocessing * concepts🤲 ⊙ Although EDA and Data Preprocessing are two distinct terms, they involve many overlapping subtasks. At times, they are even used interchangeably ⊙ → 즉! 모아진 raw data를 data preprocessing 단계를 거치고 난 뒤, preprocessed된 data를 통해 EDA 과정을 거치고 또 data preprocessing하는 과정을 거치는 것처럼 서로 상호작용하며 같이 꼭 행해져야 하는 과정이라 할 수 있다 (EDA 과정 내에 data preprocessing이 들어간다고도 말하기도 함!) - 하지만 확실한 건 EDA에 들어가는 data insight.. Computer Science/Concepts 2022. 3. 25.
data 분석 개요 & (1) 문제 정의, (2) 수집 1. 데이터 분석 및 개요 = 저장된 데이터에서 의미 있는 정보를 얻기 위한 과정 Q) 데이터 분석의 목표? = 데이터 분석을 통해 데이터를 활용함으로써 경제적 가치를 창출하는 것! [1] 데이터 활용 사례 * 미국 T-mobile 사 - 미국 내 휴대폰 통신 사업자를 대상으로 통화패턴을 분석하여 이탈고객을 방지한 사례 * sensor 데이터 관리 사례 - volvo 신차의 운행 과정에서 발생하는 각종 sensor 데이터 활용 : 해당 데이터를 활용함으로서 제품개발에서 찾기 어려운 결함 & 고객의 요구를 분석 - 과거에는 50만대의 차량이 팔린 후 알 수 있던 결함을 단지 1,000대 판매 시점에 바로 포착 - 결국 대규모 리콜 상태를 방지함으로서 비용을 절감할 수 있었다. [2] 데이터 분석의 역할 *.. Computer Science/Basics and Concepts 2022. 3. 23.
FE - Feature Engineering 1. Concepts * In real world, data is really messy - we need to clean the data * FE = a process of extracting useful features from raw data using math, statistics and domain knowledge - 즉, 도메인 지식과 창의성을 바탕으로 dataset에 존재하는 feature들을 재조합하여 새로운 feature를 만드는 과정이다 - 기존 feature끼리 재조합하여 새로운 열을 만들어내거나, 기존 feature에 조건식을 걸어 새로운 열을 만들어내기, 기존 열의 dtype 변환 - 분석의 결과, 모델링의 아웃풋 향상을 위해서 더 의미있는 패턴을 발견하기 위해 사용 - clea.. Computer Science/Concepts 2022. 3. 22.