Computer Science55

Data Science Methodology (from Coursera) - From problem to approach - Q1. What is the problem that you are trying to solve? Q2. How can you use data to answer the question? - Working with the data - Q3. What data do you need to answer the question? Q4. Where is the data coming from (identify all sources) and how will you get it? Q5. Is the data that you collected representative of the problem to be solved? Q6. What additional work is r.. Computer Science/Basics 2022. 3. 27.
Tools for Data Science (from Coursera) 1. Data Scientist's Toolkit [1] Languages of Data Science # Python → by far the most popular programming language for data science → it uses clear, readable syntax. You can do many of the things you are used to doing in other programming languages but with Python you can do it with less code. → a high-level general-purpose programming language that can be applied to many different classes of pro.. Computer Science/Basics 2022. 3. 26.
Tabular Data 🗄️ Tabular Data is... 1. Data organized into a table 2. Table is a grid of data 3. Column must be same type (homogenous data) 4. (but) Row can contain many types (heterogenous data) (ofc each elements of the tabular data has different types) - Tabular Data example - Tabular Data is composed of... 1) observations - a row 2) variables - a column 3) relationships - relationship between the tables (con.. Computer Science/Concepts 2022. 3. 26.
Data Preprocessing * concepts🤲 ⊙ Although EDA and Data Preprocessing are two distinct terms, they involve many overlapping subtasks. At times, they are even used interchangeably ⊙ → 즉! 모아진 raw data를 data preprocessing 단계를 거치고 난 뒤, preprocessed된 data를 통해 EDA 과정을 거치고 또 data preprocessing하는 과정을 거치는 것처럼 서로 상호작용하며 같이 꼭 행해져야 하는 과정이라 할 수 있다 (EDA 과정 내에 data preprocessing이 들어간다고도 말하기도 함!) - 하지만 확실한 건 EDA에 들어가는 data insight.. Computer Science/Concepts 2022. 3. 25.
data 분석 개요 & (1) 문제 정의, (2) 수집 1. 데이터 분석 및 개요 = 저장된 데이터에서 의미 있는 정보를 얻기 위한 과정 Q) 데이터 분석의 목표? = 데이터 분석을 통해 데이터를 활용함으로써 경제적 가치를 창출하는 것! [1] 데이터 활용 사례 * 미국 T-mobile 사 - 미국 내 휴대폰 통신 사업자를 대상으로 통화패턴을 분석하여 이탈고객을 방지한 사례 * sensor 데이터 관리 사례 - volvo 신차의 운행 과정에서 발생하는 각종 sensor 데이터 활용 : 해당 데이터를 활용함으로서 제품개발에서 찾기 어려운 결함 & 고객의 요구를 분석 - 과거에는 50만대의 차량이 팔린 후 알 수 있던 결함을 단지 1,000대 판매 시점에 바로 포착 - 결국 대규모 리콜 상태를 방지함으로서 비용을 절감할 수 있었다. [2] 데이터 분석의 역할 *.. Computer Science/Basics 2022. 3. 23.
FE - Feature Engineering 1. Concepts * In real world, data is really messy - we need to clean the data * FE = a process of extracting useful features from raw data using math, statistics and domain knowledge - 즉, 도메인 지식과 창의성을 바탕으로 dataset에 존재하는 feature들을 재조합하여 새로운 feature를 만드는 과정이다 - 기존 feature끼리 재조합하여 새로운 열을 만들어내거나, 기존 feature에 조건식을 걸어 새로운 열을 만들어내기, 기존 열의 dtype 변환 - 분석의 결과, 모델링의 아웃풋 향상을 위해서 더 의미있는 패턴을 발견하기 위해 사용 - clea.. Computer Science/Concepts 2022. 3. 22.
EDA - Exploratory Data Analysis 1. concepts & goals → 탐색적 데이터 분석 - 수집한 데이터를 본격적으로 분석하기 전에 자료를 직관적으로 바라보는 과정이 필요한데, 이때 EDA를 사용한다 - 데이터 분석의 한 종류로 복잡한 모델링이나 수식을 쓰지 않고 데이터를 말 그대로 탐색하는 것이다. - it allows you to examine the data as they are without making any assumptions..! - 탐색! 즉 결측치, 이상치, dtypes, shape, 새로운 data 생성(기존 data 이용), fillna() 모두 포괄하는 개념이라 할 수 있다 - 시각화 같은 도구를 통해서 패턴을 발견 & 데이터의 특이성 확인 & 통계와 그래픽(혹은 시각화)을 통해 가설을 검정 * [EDA me.. Computer Science/Concepts 2022. 3. 22.