전체 글288

Simple Linear Regression (concepts) ** 우리는 저번시간에 Supervised Learning - Regression - Linear Regression까지 concepts에 대해 배웠다 (↓↓↓↓↓↓ 하단 포스팅 참조 ↓↓↓↓↓↓) ML Supervised Learning → Regression → Linear Regression 1. ML 기법 구분 💆🏽‍♂️ 답이 주어져 있는 Supervised Learning 🙅🏽 답이 주어져 있지 않은 UnSupervised Learning → Simple Linear Regression(단순선형회귀)은 답이 주어져 있는 Dependent variable & In.. sh-avid-learner.tistory.com 1. HOW? - Simple Linear Regression (step-by-s.. Machine Learning/Models (with codes) 2022. 4. 14.
pandas Tricks_09&10👉🏻 'EXPANDING → a string & a series of lists - into a DF' (Kevin by DataSchool) 😌 dataframe내의 data를 자유자재로 나누어 갖다 붙이고, 들어 있는 게 list면 따로 뽑아내서 갖다 붙이고 싶다면..? → 즉, dataframe 자체를 자유자재로 추가 정보를 붙여 확대하고 싶을 때 사용! ← 1. EXPANDING(1) - splitting a string into MULTIPLE COLUMNS Q) column 내의 string 문자열을 일정 기준으로 나누어 기존 dataframe에 갖다 붙이고 싶으면? A) .column_name.str method를 활용하여 split 적용 → expand = True df = pd.DataFrame({'name': ['Ryan Murphy Kim', 'Jane Doe Rhondall'], 'location': ['Los Angele.. Python/Pandas&Numpy 2022. 4. 14.
What is Data Science? (from Coursera) 1) Defining Data Science & What Data Scientists Do * What is Data Science? = the field of exploring, manipulating, and analyzing data, and using data to answer questions or make recommendations. → what is NEW? the vast quantity of data available from massively varied sources * the process of data science - many organizations use data science to focus on a specific problem, and so it's essential .. Computer Science/Basics 2022. 4. 13.
ML Supervised Learning → Regression → Linear Regression 1. ML 기법 구분 💆🏽‍♂️ 답이 주어져 있는 Supervised Learning 🙅🏽 답이 주어져 있지 않은 UnSupervised Learning → Simple Linear Regression(단순선형회귀)은 답이 주어져 있는 Dependent variable & Independent variable 간의 관계를 나타내준다. → 따라서 Simple Linear Regression은 지도학습(Supervised Learning)의 일종! 2. Supervised Learning → 지도학습은 하단 그림과 같은 model 절차를 따라간다. (위 그림 설명!) - 1-2-3-4-5 순서 잘 따라가기 ① test, docu, image와 같은 다양한 format의 data에서 특징 vector(X)를 .. Machine Learning/Models (with codes) 2022. 4. 13.
Baseline Model - 맨 하단 글 일부 발췌 - 🧐 "A baseline is a simple model that provides reasonable results on a task and does not require much expertise and time to build. Common baseline models include linear regression when predicting continuous values, logistic regression when classifying structured data, pretrained convolutional neural networks for vision related tasks, and recurrent neural networks and gradient boo.. Machine Learning/Fundamentals 2022. 4. 13.
Python Basics(2). (from Coursera) 4) Working with Data in Python # Reading & Writing Files with Open * Reading Files with Open - open) provides a File object that contains the methods and attributes you need in order to read, save, and manipulate the file, the first parameter is the file path and file name / the second argument is mode(optional): default value is r - It is very important that the file is closed in the end. This .. Python/Fundamentals 2022. 4. 13.
Tidy Data * 실제 사용되는 데이터는 하나의 완벽한 dataset이 아닌 여러 개로 쪼개진 경우가 많다! → 따라서 분석하기 용이하게 하나의 dataset으로 만들기 위한 과정이 필요 1. Tidy Data란? "각 변수가 열이고 각 관측치가 행으로 배열된 data (by Hadley Wickham)" - columns에 있던 data를 row로 녹인다고 생각하면 쉬움! - seaborn 시각화할 때 짧은 코드로 가능! (매우 편리) ↓↓↓↓ box plot 시각화할 때 사용한 tidy data 예 살펴보기 ↓↓↓↓ violin plot (+seaborn) * EDA에 대해 알아보았고 EDA 과정에서 많이 쓰이는 시각화 방법 중 box plot에 대해 자세히 알아보았다. box plot (+seaborn) * 저번.. Computer Science/Concepts 2022. 4. 13.
SettingWithCopyWarning 해결법? dataframe을 조작하다 종종 마주하는 SettingWithCopyWarning 에러 1. SettingWithCopyWarning이란? > 예를 들어서 설명하자 - toInt()라는 함수를 통해 df_subset의 '매출액' column data를 모두 int 정수형으로 바꾸고자 한다 - def toInt(string): return int(string.replace(',','')) df_subset['매출액'] = df_subset['매출액'].apply(toInt) df_subset > 이 때 SettingWithCopyWarning 발생 → 바로 원본 dataframe의 copy 복사본에서 수정을 가한 것이므로 → 원본 data에 수정을 가하는 것에 대한 potential warning을 미리.. Failures & Issues/problem-solution 2022. 4. 13.
pandas Tricks_08👉🏻 'missing values - dropna() & isna() (advanced)' (Kevin by DataSchool) * handling missing values는 preprocessing 단계의 일부로 하단 포스팅에서 일부 배웠다 ↓↓↓↓ - dropna, isnull, fillna - Data Preprocessing * concepts🤲 ⊙ Although EDA and Data Preprocessing are two distinct terms, they involve many overlapping subtasks. At times, they are even used interchangeably ⊙ → 즉! 모아진 raw data를 data.. sh-avid-learner.tistory.com Q) NaN 값이 몇%의 값으로 있는 지, NaN이 몇 % 이상 있는 비율 column만 선택해서 제거가 가능한지? A).. Python/Pandas&Numpy 2022. 4. 9.
concat & append & merge & join 👋 data는 무수히 여러 종류로 나누어져 있다(for 보안 & 효율성). 합치는 과정을 data preprocessing 과정에서 반드시 겪게 되는 데,, 어떤 case에 어떤 최적의 함수를 사용해야 할 지 이번 포스팅을 통해 총 네 가지! concat, append, merge, join에 대해서 알아보자 👉 docu list - concat) https://pandas.pydata.org/docs/reference/api/pandas.concat.html - append - dataframe) https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.append.html - append - series) https://pandas.pydata.o.. Python/Pandas&Numpy 2022. 4. 9.
Coordinate Systems & Axes (source from <Fundamentals of DV by Claus O.Wilke>) *Intro "To make any sort of data visualization, we need to define position scales, which determine where in a graphic different data values are located. We cannot visualize data without placing different data points at different locations, even if we just arrange them next to each other along a line. For regular 2d visualizations, two numbers are required to uniquely specify a point, and therefo.. Visualizations/Fundamentals of DV by Claus O. Wilke 2022. 4. 9.
Scalar & Vector (fundamentals) ▶ Linear Algebra 하면? 당연히 알아야 할 기본은 'Scalar(스칼라)' & 'Vector(벡터)' & 'Matrix(행렬)' ◀ 1. Scalar * concepts = "단순히 변수로 저장되어 있는 숫자" → vector 혹은 matrices에 곱해지는 경우 해당 값에 곱한 값으로 결정 → 단일숫자 → 변수에 저장 시 소문자를 이용하여 표기 → 실수 & 정수 모두 ok → 벡터의 크기를 맘대로 늘이는 걸 scaling한다고 해서 이 때 측정되는 크기를 '스칼라(scalar)'라고 한다 2. Vector * intro → python) 주로 list로 사용 → dataset을 구성하고 있는 dataframe의 행/열로서 사용 (즉, 너무 많이 적용되는 vector 개념!) → 위에 화살표.. Math & Linear Algebra/Concepts 2022. 4. 6.
[인적자원] 인적자원 관리하기 1️⃣ 조직구조 특성에 따른 보고체계와 임무수행 체계를 교육하고 관련 프로세스 확산하여 숙련도 향상 2️⃣ IT프로젝트에 참여하는 조직 구성원들이 숙련된 체계를 따를 수 있도록 수행역량 확보 3️⃣ 주기적으로 IT프로젝트 조직과 단위조직의 운영효율 성과 성과달성 정도에 대해서 모니터링 & 피드백하여 조직체계 수정 4️⃣ 여러 상황으로 인한 사업 범위 및 활동 일정의 변경에 따라 현재 또는 후속활동을 위하여 자원 요구조건을 파악하고 자원 재배정 가능 1. IT 프로젝트팀 개발 [1] PSP(Personal Software Process) = sw개발 역량 높이기 위해 개발자가 준수해야 할 sw 개발 프로세스 - 정량화된 개발 훈련 체계 - 기준, 계획, 품질관리, 반복의 4단계로 구성 1) 기준(PSP 0.. IT knowledge/(etc) 2022. 4. 6.
[인적자원] 참여인원 편성하기 1️⃣ 조직단위별로 할당된 임무에 필요한 역량 식별 & 그 역량을 가진 인력을 선별하여 할당 2️⃣ 인원 pool에 있는 대상인원의 배치와 관련 계약에 필요한 프로세스 진행 3️⃣ 프로젝트 전체 성과 목표를 각 단위 조직과 개인 단위로 분할하여 정렬 4️⃣ 편성된 대상 인력에게 해당조직에 분할할당된 임무 교육 1. 프로젝트 역량 식별 및 편성 [1] 프로젝트 역량 식별 → 역량(역할)모형 (competency model) - '역량의 종류' & '역량의 수준'이라는 2차원 접근법을 사용하여 조직의 인력들이 필요한 역량 정의 / 역량을 종합하여 정량화 → NCS 역량 모델 개발 - 업무 특성에 요구되는 역량을 추출 - 역량 모델링 추진 계획 > 역량 모델링 활용하기 > 역량 모델 개발 진행 → SW 기술 .. IT knowledge/(etc) 2022. 4. 6.
Web Crawling(Scraping) 개요 + DOM 기초 🕵🏻 우리가 주어진 data는 대게 정돈된 structured data가 아닐 확률이 높다. 특히 web에 흩뿌려진 data를 가져오는 경우가 종종 있는데, 이 때 web scraping이라는 기법을 사용함! (개인적으로 너무 재밌는 web scraping 🏄🏻‍♀️) Q. Web Scraping vs. Web Crawling? ≫ web scraping은 우리가 찾을 'data'에 초점을 둔 것 / web crawling은 우리가 찾을 장소인 'url'에 초점을 둔 것. 대게 crawling과 scraping 과정을 병행한다. (web scraping is about extracting the data from one or more websites. While crawling is about findi.. Python/Web Crawling+Scraping 2022. 4. 5.
T-test 👉 《One-sample T-test (w/ python code)》 👒 저번 시간에 statistics에서 빼놓을 수 없는 '가설검정 TEST - Hypothesis Test'에 대해 배웠다. Hypothesis Test: H0 & Ha - concepts 1. Hypothesis Testing? → Null Hypothesis(H0) 🙆‍♂️ 1▶ Create a Hypothesis (without stating H0) ▷ (if data gives us strong evidence that the hypothesis is wrong) we can reject the Hypothes.. sh-avid-learner.tistory.com - H0을 세우고 Ha를 이용해 H0을 기각하는 결론을 내리는 hypothesis test! - 🙌 이번 시간에는 해당 가설검정 tes.. Statistics/Concepts(+codes) 2022. 4. 5.
(python) what are NaN, Null, NA, None ? -- python에 한정해서 (R 아님! 🤗) -- * None vs NaN(NA) as of None... ☆ None is used to define a null value. It is not the same as an empty string, False, or a zero. It is a data type of the class NoneType object. Assigning a value of None to a variable is one way to reset it to its original, empty state. → 즉 None은 말그대로 missing data - 아무것도 없는, 데이터가 빠진 공간이라 생각하면 된다. → 함수가 아무것도 return하지 않으면 None을 return → .. Failures & Issues/problem-solution 2022. 4. 4.
[인적자원] 수행조직 구성하기 1️⃣ IT플젝의 역할, 책임, 보조관계 확인하고 문서화 2️⃣ IT플젝의 초기에 IT플젝의 미션과 임무의 난이도, 팀원들의 운영방식 등을 식별하여 조직의 체계를 구성 3️⃣ IT플젝 수행조직의 문화와 운영특성을 고려하여 기능적 조직구조와 IT플젝 중심 조직구조를 혼합하여 운영방식 결정 4️⃣ 프로젝트 조직 구성 & 계획에 따른 자원산정 - 자원의 속성으로 출처, 단위, 투입, 종료 등 기록 가능 1. IT 프로젝트에서의 역할 및 책임 → 역할) 플젝 팀원에게 배정된 직위 - 비즈니스 분석가, 프로젝트 관리자, 개발자 등이 있다 → 활동) 수행하면서 도출되는 산출물 기준 정의 - 요구사항, 비즈니스 프로세스 등 → 책임) 역할에 연계되어 팀원에게 배정되어 수행 및 완료하도록 기대하는 의무와 작업 → RA.. IT knowledge/(etc) 2022. 4. 4.
Python Basics(1). (from Coursera) 1) Python Basics # Types e.g) 11 (int) / 12.32 (float) - can check the specifics of floats 'sys.float_info' / "I love Python" (str) / True, False (bool) → By using the data type, we can see the actual data type (type(11) = int) → type casting) change the type of the expression (float(2), int(2.2), string(1), int(True) = 1) # Expressions & Variables → Expressions describe a type of operation the .. Python/Fundamentals 2022. 4. 4.
pandas Tricks_07👉🏻 'Filtering - isin & tilde(~)&nlargest' (Kevin by DataSchool) Q. dataframe 자체 내에 연산자를 써서 condition으로 data를 나눌 수 있다. 이 때 isin method & tilde를 써서 좀 더 깔끔하게! filtering 가능 A. condition에 isin method 사용, 그리고 tilde(~)를 condition 맨 앞에 붙이기 ∬ isin docu ∬ https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.isin.html DataFrame.isin(values) Q) 타이타닉호 탑승자 중 Southampton & Queenstown 출신 / 이 두 지역이 아닌 사람들 data filtering하기 > titanic dataset 준비 & 'embark_town' column .. Python/Pandas&Numpy 2022. 3. 31.
(basic) CLI & 간단 명령어 (linux) & python 가상환경 CLI vs. GUI 🤸🏽 기초지식으로 알아야 할 부분들 정리해보려 한다! 🤸🏽 1> CLI(Command Line Interface) = '글자 기반으로 명령과 결과가 진행되는 환경' * 터미널(terminal) ≫ 글자 기반으로 명령을 전달하는 어플리케이션 → CLI를 통해 shell이 실행됨 (The shell is basically a program that takes your commands from the keyboard and sends them to the operating system to perform) → 운영체제 OS가 작동되게 하는 shell program은 키보드 입력으로 받은 명령어로 작동되므로 우리는 CLI인 환경에 익숙해져야 함 → 대표적인 shell은 bash shell .. Computer Science/Basics 2022. 3. 31.
Git fundamentals (w/GitHub) 🖐 반드시 알아야 하는 Git * 저번 시간에 couresra 강좌에서 VCS에 대해서 배웠음 What is VCS? * VCS(Version Control System) concepts 💁🏻‍♂️ GOAL of VCS = 'To Keep track of Changes made to our files' → when try to manage some changes in IT, it's super important to have detailed historic.. sh-avid-learner.tistory.com * 이제 VCS의 일종인 Git에 대해서 알아보자! (추가로 GitHub까지) (참고로 git은 그림으로 이해하는게 BEST다. 그리고 직접 해보는게 장땡!) Git은 일종의 snapshot을 찍어.. IT knowledge/VCS 2022. 3. 31.
[일정] 공정자원 할당하기 1️⃣ 각 상세의 수행 업무 특성을 고려하여 투입 가능한 인력의 생산성 추정 2️⃣ 전체 인력의 기간별 가용상황을 고려하여 공정의 자원 할당 조정 3️⃣ 확장된 공정의 각 상세 작업에 필요한 인력과 시간을 추정하여 할당 가능 1. 공정 자원 할당 ITTO 개요 → 주요 입력 - 프로젝트 관리 계획서 - 범위 기술서) 숙련된 자원의 계약 조건 및 요구사항과 같은 제약사항 정보의 가용성이나 조건과 같은 가정사항 - 활동원가 산정치 - 자원 달력 - 위험관리대장 - 활동 목록 및 활동 속성 - 기업환경요인과 조직 프로세스 자산 2. 도구와 기법 [1] 인력 생산성 추정 기법 * 모수 추정 기법 → 노력 = 개발 규모 * 생산성, 기능점수 → 개발생산성 = (개발한 FP) / 프로젝트 투입량(MM) (단위: F.. IT knowledge/(etc) 2022. 3. 31.
What is VCS? * VCS(Version Control System) concepts 💁🏻‍♂️ GOAL of VCS = 'To Keep track of Changes made to our files' → when try to manage some changes in IT, it's super important to have detailed historical info → this lets the managers see what was modified and when (can be criticial to troubleshooting) → also provides a documentation trail for future IT specialists to understand why the infrastructure is t.. IT knowledge/VCS 2022. 3. 31.
Intro + Aesthetics, Data Type & Scales (source from <Fundamentals of DV by Claus O.Wilke>) * Intro "Data visualization is part art and part science. The challenge is to get the art right without getting the science wrong and vice versa. A data visualization first and foremost has to accurately convey the data. It must not mislead or distort. If one number is twice as large as another, but in the visualization they look to be about the same, then the visualization is wrong. At the same.. Visualizations/Fundamentals of DV by Claus O. Wilke 2022. 3. 30.
[일정] 선후관계 설정하기 [일정] 공정 정의하기 → 시스템의 개발목표, 기술적 특성, 개발팀의 상황을 고려하여 공정 선정 → IT 프로젝트의 일정, 인력, 이행조건 등 제약사항을 파악하여 부합하도록 표준 공정을 조정 및 수정 → IT 프로젝 sh-avid-learner.tistory.com → IT프로젝트의 세부목표에 따라 우선 수행해야 할 활동을 선별하여 설정할 수 있다 → IT프로젝트 특성과 제약사항을 반영하여 작업 일정 간 선후관계 조정 → 각 공정과 세부작업들 간 상관관계에 따라 선후관계를 설정하고 일정을 조정할 수 있다 1. 선후관계 설정 - 앞선 1. 공정 정의는 상단 포스팅 참조! 이번 포스팅은 - [1] 선후관계 설정 ITTO {1} input → 프로젝트 관리 계획서) 프로젝트 수행의 구체적인 방법 & 도구 / .. IT knowledge/(etc) 2022. 3. 30.
REST API example - Coingecko API 👋 저번 시간에 section에서 REST API에 대해 배운 적이 있다..! Tools for Data Science (from Coursera) 1. Data Scientist's Toolkit [1] Languages of Data Science # Python → by far the most popular programming language for data science → it uses clear, readable syntax. You can do many of the thi.. sh-avid-learner.tistory.com 💪 요약하자면, API중 HTTP 방식으로 client와 web service 간 메세지를 주고 받는 방식을 REST API라고 함. '* Rest API’s func.. Computer Science/Concepts 2022. 3. 30.