전체 글 - Table of Contents332

What is Data Science? (from Coursera) 1) Defining Data Science & What Data Scientists Do * What is Data Science? = the field of exploring, manipulating, and analyzing data, and using data to answer questions or make recommendations. → what is NEW? the vast quantity of data available from massively varied sources * the process of data science - many organizations use data science to focus on a specific problem, and so it's essential .. Computer Science/Basics 2022. 4. 13.
ML Supervised Learning → Regression → Linear Regression 1. ML 기법 구분 💆🏽‍♂️ 답이 주어져 있는 Supervised Learning 🙅🏽 답이 주어져 있지 않은 UnSupervised Learning → Simple Linear Regression(단순선형회귀)은 답이 주어져 있는 Dependent variable & Independent variable 간의 관계를 나타내준다. → 따라서 Simple Linear Regression은 지도학습(Supervised Learning)의 일종! 2. Supervised Learning → 지도학습은 하단 그림과 같은 model 절차를 따라간다. (위 그림 설명!) - 1-2-3-4-5 순서 잘 따라가기 ① test, docu, image와 같은 다양한 format의 data에서 특징 vector(X)를 .. Machine Learning/Models (with codes) 2022. 4. 13.
Baseline Model - 맨 하단 글 일부 발췌 - 🧐 "A baseline is a simple model that provides reasonable results on a task and does not require much expertise and time to build. Common baseline models include linear regression when predicting continuous values, logistic regression when classifying structured data, pretrained convolutional neural networks for vision related tasks, and recurrent neural networks and gradient boo.. Machine Learning/Fundamentals 2022. 4. 13.
Python Basics(2). (from Coursera) 4) Working with Data in Python # Reading & Writing Files with Open * Reading Files with Open - open) provides a File object that contains the methods and attributes you need in order to read, save, and manipulate the file, the first parameter is the file path and file name / the second argument is mode(optional): default value is r - It is very important that the file is closed in the end. This .. Python/Fundamentals 2022. 4. 13.
Tidy Data * 실제 사용되는 데이터는 하나의 완벽한 dataset이 아닌 여러 개로 쪼개진 경우가 많다! → 따라서 분석하기 용이하게 하나의 dataset으로 만들기 위한 과정이 필요 1. Tidy Data란? "각 변수가 열이고 각 관측치가 행으로 배열된 data (by Hadley Wickham)" - columns에 있던 data를 row로 녹인다고 생각하면 쉬움! - seaborn 시각화할 때 짧은 코드로 가능! (매우 편리) ↓↓↓↓ box plot 시각화할 때 사용한 tidy data 예 살펴보기 ↓↓↓↓ violin plot (+seaborn) * EDA에 대해 알아보았고 EDA 과정에서 많이 쓰이는 시각화 방법 중 box plot에 대해 자세히 알아보았다. box plot (+seaborn) * 저번.. Computer Science/Concepts 2022. 4. 13.
SettingWithCopyWarning 해결법? dataframe을 조작하다 종종 마주하는 SettingWithCopyWarning 에러 1. SettingWithCopyWarning이란? > 예를 들어서 설명하자 - toInt()라는 함수를 통해 df_subset의 '매출액' column data를 모두 int 정수형으로 바꾸고자 한다 - def toInt(string): return int(string.replace(',','')) df_subset['매출액'] = df_subset['매출액'].apply(toInt) df_subset > 이 때 SettingWithCopyWarning 발생 → 바로 원본 dataframe의 copy 복사본에서 수정을 가한 것이므로 → 원본 data에 수정을 가하는 것에 대한 potential warning을 미리.. Failures & Issues/problem-solution 2022. 4. 13.
pandas Tricks_08👉🏻 'missing values - dropna() & isna() (advanced)' (Kevin by DataSchool) * handling missing values는 preprocessing 단계의 일부로 하단 포스팅에서 일부 배웠다 ↓↓↓↓ - dropna, isnull, fillna - Data Preprocessing * concepts🤲 ⊙ Although EDA and Data Preprocessing are two distinct terms, they involve many overlapping subtasks. At times, they are even used interchangeably ⊙ → 즉! 모아진 raw data를 data.. sh-avid-learner.tistory.com Q) NaN 값이 몇%의 값으로 있는 지, NaN이 몇 % 이상 있는 비율 column만 선택해서 제거가 가능한지? A).. Python/Pandas&Numpy 2022. 4. 9.
concat & append & merge & join 👋 data는 무수히 여러 종류로 나누어져 있다(for 보안 & 효율성). 합치는 과정을 data preprocessing 과정에서 반드시 겪게 되는 데,, 어떤 case에 어떤 최적의 함수를 사용해야 할 지 이번 포스팅을 통해 총 네 가지! concat, append, merge, join에 대해서 알아보자 👉 docu list - concat) https://pandas.pydata.org/docs/reference/api/pandas.concat.html - append - dataframe) https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.append.html - append - series) https://pandas.pydata.o.. Python/Pandas&Numpy 2022. 4. 9.
Coordinate Systems & Axes (source from <Fundamentals of DV by Claus O.Wilke>) *Intro "To make any sort of data visualization, we need to define position scales, which determine where in a graphic different data values are located. We cannot visualize data without placing different data points at different locations, even if we just arrange them next to each other along a line. For regular 2d visualizations, two numbers are required to uniquely specify a point, and therefo.. Visualizations/Fundamentals of DV by Claus O. Wilke 2022. 4. 9.
[인적자원] 인적자원 관리하기 1️⃣ 조직구조 특성에 따른 보고체계와 임무수행 체계를 교육하고 관련 프로세스 확산하여 숙련도 향상 2️⃣ IT프로젝트에 참여하는 조직 구성원들이 숙련된 체계를 따를 수 있도록 수행역량 확보 3️⃣ 주기적으로 IT프로젝트 조직과 단위조직의 운영효율 성과 성과달성 정도에 대해서 모니터링 & 피드백하여 조직체계 수정 4️⃣ 여러 상황으로 인한 사업 범위 및 활동 일정의 변경에 따라 현재 또는 후속활동을 위하여 자원 요구조건을 파악하고 자원 재배정 가능 1. IT 프로젝트팀 개발 [1] PSP(Personal Software Process) = sw개발 역량 높이기 위해 개발자가 준수해야 할 sw 개발 프로세스 - 정량화된 개발 훈련 체계 - 기준, 계획, 품질관리, 반복의 4단계로 구성 1) 기준(PSP 0.. IT knowledge/(etc) 2022. 4. 6.
[인적자원] 참여인원 편성하기 1️⃣ 조직단위별로 할당된 임무에 필요한 역량 식별 & 그 역량을 가진 인력을 선별하여 할당 2️⃣ 인원 pool에 있는 대상인원의 배치와 관련 계약에 필요한 프로세스 진행 3️⃣ 프로젝트 전체 성과 목표를 각 단위 조직과 개인 단위로 분할하여 정렬 4️⃣ 편성된 대상 인력에게 해당조직에 분할할당된 임무 교육 1. 프로젝트 역량 식별 및 편성 [1] 프로젝트 역량 식별 → 역량(역할)모형 (competency model) - '역량의 종류' & '역량의 수준'이라는 2차원 접근법을 사용하여 조직의 인력들이 필요한 역량 정의 / 역량을 종합하여 정량화 → NCS 역량 모델 개발 - 업무 특성에 요구되는 역량을 추출 - 역량 모델링 추진 계획 > 역량 모델링 활용하기 > 역량 모델 개발 진행 → SW 기술 .. IT knowledge/(etc) 2022. 4. 6.
Web Crawling(Scraping) 개요 + DOM 기초 🕵🏻 우리가 주어진 data는 대게 정돈된 structured data가 아닐 확률이 높다. 특히 web에 흩뿌려진 data를 가져오는 경우가 종종 있는데, 이 때 web scraping이라는 기법을 사용함! (개인적으로 너무 재밌는 web scraping 🏄🏻‍♀️) Q. Web Scraping vs. Web Crawling? ≫ web scraping은 우리가 찾을 'data'에 초점을 둔 것 / web crawling은 우리가 찾을 장소인 'url'에 초점을 둔 것. 대게 crawling과 scraping 과정을 병행한다. (web scraping is about extracting the data from one or more websites. While crawling is about findi.. Python/Web Crawling+Scraping 2022. 4. 5.