전체 글288

EXP001 - ≪Ridge 효과(1)≫ - coefficients 변화 & 성능 향상 확인하기 🤙 저번 포스팅에서 우리는 Multiple Regression 다항회귀모델에 대해 공부했다. Multiple Linear Regression Model (concepts+w/code) ✌️ 저번 시간에 feature가 1개인 단순선형회귀모델에 대해서 배웠다 ✌️ - 이론(개념) - Simple Linear Regression (concepts) ** 우리는 저번시간에 Supervised Learning - Regression - Linear Regression.. sh-avid-learner.tistory.com 🤙 그리고 Ridge 모델 소개 시간에 SLR 모델에 Ridge 규제를 정해 Ridge의 효과를 실험으로 증명했고, 후반부에 MLR 모델에 관해서도 잠깐 언급했었다 (L2 Regularizati.. Machine Learning/Experiments 2022. 4. 22.
feature selection (1) - selectKBest (+jointplot) 🤳 예전 포스팅에서 '특성공학(feature engineering)'이 무엇인지에 대해 간략하게 개념 학습을 하였다. FE - Feature Engineering 1. Concepts * In real world, data is really messy - we need to clean the data * FE = a process of extracting useful features from raw data using math, statistics and domain knowledge - 즉, 도메.. sh-avid-learner.tistory.com 🏃‍♂️ 우리가 실생활의 data를 가지고 모델링하는 machine learning의 세계에서 무수히 많은 feature를 만날텐데, 이 모든 featur.. Machine Learning/Fundamentals 2022. 4. 20.
T-test 👉《Two-samples 'independent' T-test (w/python code)》 ① 가설검정 hypothesis test에 대해서 배웠고 ② 그 중 대표적인 One-sample T-test에 대해서 배웠다. T-test 👉 《One-sample T-test (w/ python code)》 👒 저번 시간에 statistics에서 빼놓을 수 없는 '가설검정 TEST - Hypothesis Test'에 대해 배웠다. Hypothesis Test: H0 & Ha - concepts 1. Hypothesis Testing? → Null Hypothesis(H0) 🙆‍♂️ 1▶ Creat.. sh-avid-learner.tistory.com 👮‍♂️ One-sample T-test를 간단히 얘기하자면, 우리가 모르는 모집단의 평균이 표본집단의 평균과 같은 지(또는 크거나 작은 지)를 알아보는 .. Statistics/Concepts(+codes) 2022. 4. 20.
Ordinal Encoding 👀 머신러닝 모델은 모든 input과 output이 numeric 수치형이어야 한다는 전제조건이 깔려 있다! 즉, 우리가 마주한 data가 categorical variable이라면 모델에 집어넣기 전에 미리 numeric 수치형으로 바꾸어주는 작업이 필요한 것이다. 🕵️‍♂️ 그 중 대표적인 예로 One-Hot Encoding 기법에 대해 배웠다 One-Hot encoding ≫ ML 데이터 전처리 part에서 model이 이해할 수 있는 data로 변환하기 위해 여러 encoding 기법들이 적용된다고 하였고, 오늘은 그 중 하나인 'One-Hot encoding' 기법에 대해서 배우려고 한다 intro. Machine L. sh-avid-learner.tistory.com - 총 6가지 data t.. Machine Learning/Fundamentals 2022. 4. 20.
(L2 Regularization) → Ridge Regression (w/scikit-learn) 😼 저번 포스팅에서 Ridge 회귀가 무엇인지 개념에 대해 정확히 알아보았다 😼 (L2 Regularization) → Ridge Regression (concepts) ** 우리는 저번 포스팅에서 Supervised Learning 중 Regression의 일종인 'linear regression'에 대해 학습했다. ☝️ 위 그림에서 보다시피 linear 선형 regression으로는 많은 종류의 model이 있음을 확인할.. sh-avid-learner.tistory.com → 이젠 Ridge 회귀를 실제 python code로 구현해서 얼마나 model이 잘 예측을 하는지, 과연 과적합에서 벗어나 더 나은 model을 만들 수 있는 건지 이번 포스팅을 통해 알아보려 한다 → Ridge 모델을 만드는.. Machine Learning/Models (with codes) 2022. 4. 20.
(L2 Regularization) → Ridge Regression (concepts) ** 우리는 저번 포스팅에서 Supervised Learning 중 Regression의 일종인 'linear regression'에 대해 학습했다. ☝️ 위 그림에서 보다시피 linear 선형 regression으로는 많은 종류의 model이 있음을 확인할 수 있다 🔆 우리는 이 선형회귀모델 중 대표적인 'Ridge 릿지 회귀'에 대해서 이번 포스팅을 통해 알아보려 한다! starting from Overfitting... 👏 기존 단순선형/다중선형 회귀선이 과적합이 일어날 가능성이 있어서 일반화가 잘되는 (즉, variance를 낮추는 방향) 쪽으로 tuning하는 modelling 방법이다! 👏 (↓ovefitting / underfitting 관련 개념은 아래 posting 참조) 기존에 빨간 점.. Machine Learning/Models (with codes) 2022. 4. 19.
Databases and SQL for Data Science with Python (2/2) (from Coursera) * 저번 Database & SQl posting에 이어서..! 내용 계속 진행🎉 Databases and SQL for Data Science with Python (1/2) (from Coursera) 1) Getting Started with SQL Q1) What is SQL? (Structured English Query Language) = a language used for relational databases to query or get data out of a database - 더 자세한 설명은 하단 포스팅 참.. sh-avid-learner.tistory.com 4) Accessing Databases using Python SQL API consists of library funct.. Database/Fundamentals 2022. 4. 19.
train vs. validation vs. test set (! -- 매우 간단한 개념 짚고 넘어가는 목적 --!) * ML modelling할 때 주어진 train set로 모델을 구축하고 미리 주어진 data에서 일부 test set으로 뽑아 나중에 model에 집어넣어 예측값을 뽑거나 해당 모델의 성능을 최종적으로 평가했다. 이런 일련의 과정 (train → test)을 앞선 모델에 계속 적용했는데, 이제는 validation set을 포함하여 이 세 종류의 set의 정확한 차이점을 알아보고 개념을 다지도록 하자! - train vs. validation vs. test - ☝️ 먼저 주어진 train 훈련 data로 모델을 학습시킴 ✌️ 기존 train 훈련 data에서 학습시킨 train data를 제외한 나머지 validation data로 학습된 모.. Machine Learning/Fundamentals 2022. 4. 18.
Gradient Descent (concepts) (+momentum) * 오늘도 머신러닝에서 꼭 배우고 가야 할 'Gradient Descent' 개념에 대해서 알아보고 가자 😇 *Gradient Descent는 일종의 최적화(optimization) algorithm 중 하나로 비용함수(비용)를 최소화하는 함수의 파라미터를 찾을 때 사용된다 *😔 잘 감이 오지 않음 저번에 배운 「SLR」 모델을 예로 들자면 Simple Linear Regression (concepts) ** 우리는 저번시간에 Supervised Learning - Regression - Linear Regression까지 concepts에 대해 배웠다 (↓↓↓↓↓↓ 하단 포스팅 참조 ↓↓↓↓↓↓) ML Supervised Learning → Regression → Linear Regr.. sh-avid.. Machine Learning/Fundamentals 2022. 4. 18.
pandas Tricks (Kevin by DataSchool) 완료! COMPILATION 길고 긴 Keving Pandas Tricks를 모두 끝냈다 😍 (총 14개의 trick 포스팅!) pandas라는 강력한, 극강의 library를 통해 dataframe을 자유자재로 이용할 수 있게 되었다. 추가로 더 알게되는 유용한 기능들이 있다면 계속해서 pandas tricks라는 이름 하에 올릴 예정🙋🏼‍♂️ https://www.youtube.com/watch?v=RlIiVeig3hc 《pandas tricks compilation》 🏄🏼‍♂️ 행과 열 순서 바꾸기 pandas Tricks_01 👉🏻 'Reverse (row/column) Order' (Kevin by DataSchool) Q) 데이터프레임이 주어졌다. 근데 내가 원하는 데이터는 행 기준 아래 부분. 데이터 용량이 워낙 커서 .. Python/Pandas&Numpy 2022. 4. 18.
Color Scales (source from <Fundamentals of DV by Claus O.Wilke>) ☆ THREE fundamental use cases for color in data visualizations ☆ 1. as a tool to DISTINGUISH 👐 → 'distinguishing discrete items or groups that do not have an intrinsic order, such as different countries on a map or different manufacturers of a certain product' 👉 data를 서로 구분하는 용도로 색을 쓸 때는 data 간에 내재된 순서가 없을 경우이다. 순서가 존재한다면 순서가 가까운 data 간에 좀 더 유사한 색을 부여해야 하므로 data간에 서로 영향이 없을 경우 색을 고를 때 한정한다! 👉 이럴.. Visualizations/Fundamentals of DV by Claus O. Wilke 2022. 4. 18.
Databases and SQL for Data Science with Python (1/2) (from Coursera) 1) Getting Started with SQL Q1) What is SQL? (Structured English Query Language) = a language used for relational databases to query or get data out of a database - 더 자세한 설명은 하단 포스팅 참조 - why SQL? & Relational Databases 🧡 Structured Query Language 🧡 🦄 1970년대에 등장했으면 다소 '올드하다'는 이미지를 가져다 줄 수 있겠지만, 전 세계 기업들 - 페이스북, 인스타, 에어비앤비, 우버 등등 -이 보유한 대용량의 data는 sh-avid-learner.tistory.com Q2) What is a Database.. Database/Fundamentals 2022. 4. 18.
Basic Derivative - 미분 기초 1. intuition [1] derivative - 변수 x를 아주아주 조금 움직였을 때 f(x)의 기울기 (다 똑같은 말) - → 즉, x를 움직였을 때 f값이 얼마나 변하는 지 - 'x가 움직인 값 대비 변한 f값 정도'를 '기울기'라고 한다 → 여기서, x가 매우매우 조금만 움직였을 때(즉, x의 변화량이 극한값으로 0으로 향할 때: lim(Δx→ 0))의 y변화량을 '미분값'이라 한다 - x에서의 'derivative of function' - + 즉 여기서 h가 0을 향해 간다면? 해당 기울기는 '미분값'! [2] partial derivative - 편미분 → 한 쪽 변수만 제외하고 나머지는 변하지 않는다 가정한 상태에서, 제외한 한 쪽 변수의 변화량 (이 때 변화량은 lim(Δx→ 0)과 .. Math & Linear Algebra/Concepts 2022. 4. 18.
pandas Tricks_14👉🏻 'styling a dataframe' (Kevin by DataSchool) 🤳 저번 pandas tricks 시간에는 display 형태를 어떻게 보이게 할 것인지에 대해 배웠었다. 좀 더 flexible한 강력한 dataframe styling에 대해 알아보려 한다! → pandas에는 이미 주어진 dataframe 또는 series를 CSS를 이용하여 cutomized된, 다양한 디자인 + 표시 옵션을 제공해준다. ① dictionary 형태로 format에 원하는 column명과 바뀔 style을 지정한 여러 pair들을 집어넣을 수 있다 ② dataframe 전체에서 적용시키는 여러 method들을 집어넣을 수 있다 (예를 들면 hide_index() 라던가 set_caption(), bar() 등등) pandas Tricks_13👉🏻 'change display opt.. Python/Pandas&Numpy 2022. 4. 18.
Multiple Linear Regression Model (concepts+w/code) ✌️ 저번 시간에 feature가 1개인 단순선형회귀모델에 대해서 배웠다 ✌️ - 이론(개념) - Simple Linear Regression (concepts) ** 우리는 저번시간에 Supervised Learning - Regression - Linear Regression까지 concepts에 대해 배웠다 (↓↓↓↓↓↓ 하단 포스팅 참조 ↓↓↓↓↓↓) ML Supervised Learning → Regression → Linear Regr.. sh-avid-learner.tistory.com - scikit-learn python 코드 - Simple Linear Regression Model (w/scikit-learn) ** 저번 포스팅에서 단순선형회귀 '개념'에 대해 자세히 공부했었다! 😚 .. Machine Learning/Models (with codes) 2022. 4. 17.
pandas Tricks_13👉🏻 'change display options' (Kevin by DataSchool) 🕺 pandas & dataframe은 뗄레야 뗄 수 없는 관계! 🕺 ≪주어진 dataframe이 육안상 어떻게 보이게 하는 지 여러 설정을 통해 바꿔보자≫ ※ 여기서 중요한건, data는 internally하게 바뀌지 않는다는 점 (육안상 보이는 형태만 바꿀 뿐!) ※ 🍉 pd.set_option() docu 🍉 https://pandas.pydata.org/pandas-docs/version/0.23/generated/pandas.set_option.html# pandas.set_option(pat, value) = → pat이라는 인자에 바꿀 option의 종류를 집어넣는다 → pat 인자에 맞는 알맞은 value를 설정해 원하는 대로 display되게 설정! ≪pat 종류≫ → 그때 그때 원하는 .. Python/Pandas&Numpy 2022. 4. 17.
in where? 🦸‍♀️ - AI examples 1. 제조/IoT 산업 내 AI 혁신과 스마트팩토리 [1] 제조 분야 {1} 스마트팩토리 - 제조 생산을 위한 수직적 통합 및 네트워크화된 제조 시스템을 갖춤 - 제조 공정 및 운영 데이터와 통합 - 오작동모니터링(설비혁신) -> 제품성능모의실험(품질혁신) -> 데이터 기반 의사결정 최적화(운영혁신) 순서로 진행 * 오작동 모니터링 - 기계 설비의 오작동율은 환경(제조율, 습기, 온도 등)에 따라 다름 - 따라서 특정 센터 1-2개만으로 오작동을 예측하기에는 정확도의 한계가 존재 - 다양한 데이터에 기반한 AI를 사용하여 한계 극복, 오작동 시점을 예측 가능 * 제품성능모의실험 (Digital twin) - 실제 공장을 만들어 제품 생산을 테스트하는 데에는 막대한 시간과 비용 소모 - 데이터에 기반한 가.. Computer Science/Basics 2022. 4. 17.
One-Hot encoding ≫ ML 데이터 전처리 part에서 model이 이해할 수 있는 data로 변환하기 위해 여러 encoding 기법들이 적용된다고 하였고, 오늘은 그 중 하나인 'One-Hot encoding' 기법에 대해서 배우려고 한다 intro. Machine Learning 1. 개론 → ML은 빅데이터를 분석할 수 있는 강력한 tool의 일종이다. 기존 통계학 및 시각화로는 해결할 수 없는 한계를 보완함! 👏 데이터를 기반으로 앞으로의 미래를 예측하는 기법 👋 주어진 sh-avid-learner.tistory.com concepts 'One hot encoding can be defined as the essential process of converting the categorical data variable.. Machine Learning/Fundamentals 2022. 4. 17.
Cross-Validation (concepts + w/code) * 머신러닝을 위해서 무.조.건. 알아야 하는 CROSS-VALIDATION! 간단히 개념만 알아보ZA * * concepts> - 2번 과정 - model selection에서 주로 많이 쓰이는 cross-validation 기법 - 🧐 PURPOSE? 'The purpose of cross–validation is to test the ability of a machine learning model to predict new data. Q. 그러면 CV(Cross-Validation)에서는 무엇을 가지고 여러 모델의 성능을 평가할 수 있을까? A. 두 가지 필요 - train data & test data (from the dataset) 1) estimate the parameters for ML .. Machine Learning/Fundamentals 2022. 4. 17.
Overfitting/Underfitting & Bias/Variance Tradeoff 1. 일반화(generalization) "In machine learning, generalization is a definition to demonstrate how well is a trained model to classify or forecast unseen data. Training a generalized machine learning model means, in general, it works for all subset of unseen data. An example is when we train a model to classify between dogs and cats. If the model is provided with dogs images dataset with only two br.. Machine Learning/Fundamentals 2022. 4. 17.
All About Evaluation Metrics(1/2) → MSE, MAE, RMSE, R^2 ** ML 모델의 성능을 최종적으로 평가할 때 다양한 evaluation metrics를 사용할 수 있다고 했음! ** (supervised learning - regression problem에서 많이 쓰이는 평가지표들) - 과정 (5) - 😙 그러면 차근차근! 각 평가지표에 대해서 자세히 알아보려고 함! 😙 - ①MSE ②MAE ③RMSE ④R-Squared - 1. MSE(Mean-Squared Error) 🤔 linear regression model concept에 대해서 배울 때 관측치와 예측치의 차이들의 합인 SSE를 최소로 하는 'least squares method'를 기반으로 선형회귀모델을 결정한다고 배웠다 ≫ 이 SSE를 전체 데이터 개수 n으로 나눈 값, 즉 '관측치와 예측치의 차이.. Machine Learning/Fundamentals 2022. 4. 16.
Simple Linear Regression Model (w/scikit-learn) ** 저번 포스팅에서 단순선형회귀 '개념'에 대해 자세히 공부했었다! 😚 Simple Linear Regression (concepts) ** 우리는 저번시간에 Supervised Learning - Regression - Linear Regression까지 concepts에 대해 배웠다 (↓↓↓↓↓↓ 하단 포스팅 참조 ↓↓↓↓↓↓) ML Supervised Learning → Regression → Linear Regr.. sh-avid-learner.tistory.com ** 이젠 직접 scikit-learn을 사용하여 직접 단순선형회귀모델을 만들어보자. 코드구현! 1. - feature matrix & label vector - 👆 먼저 scikit-learn library를 활용한 모델에 집어넣기.. Machine Learning/Models (with codes) 2022. 4. 16.
intro. Machine Learning 1. 개론 → ML은 빅데이터를 분석할 수 있는 강력한 tool의 일종이다. 기존 통계학 및 시각화로는 해결할 수 없는 한계를 보완함! 👏 데이터를 기반으로 앞으로의 미래를 예측하는 기법 👋 주어진 데이터가 있으면 이 데이터의 패턴을 파악 🖐 주어진 데이터를 활용한 추천 시스템 개발! → 위 세 가지의 여러 활동들을 ML을 통해서 구현할 수 있다. 기계가 이런 활동을 알아서 학습하게끔 스스로 그런 능력을 갖게 하는 것! → ①지도학습은 정답이 주어져있고, ②비지도학습은 정답이 주어져 있지 않다. → ③강화학습을 통해 기계가 스스로 학습이 가능하게 함. (학습을 수행하기 위한 데이터 x - 알아서 데이터를 생성) 2. ML을 위한 data (+EDA) 간단 정리 즉, data type을 자세히 위와 같이 .. Machine Learning/Fundamentals 2022. 4. 15.
descriptive statistics & inferential statistics statistics 통계학을 배운다면 반드시(?) 구분해서 알아야 할 '기술통계치' & '추론통계치'!! 1. descriptive statistics(기술통계치) 'summarizes the characteristic of a data set' ≫ 주어진 data를 'descriptive(묘사하는) 관련 통계수치'라고 뜻하는 걸로 data를 설명하는 통계치들을 뜻함! ≫ 다시 크게 두 가지로 나눌 수 있는데, 1> 수집한 data를 집중적으로 나타내 주는 평균, 중앙값, 최빈값 등인 '데이터 집중화' → central tendency 2> 수집한 data가 어느 정도 퍼져 있는 지를 나타내 주는 '분산도'로 표준편차, 사분위 등이 있다. → variability ≫ 우리가 저번에 배운 box plot .. Statistics/Concepts(+codes) 2022. 4. 15.
<추정과 검정> - 점 & 구간 추정 - confidence interval (w/python code) 1. 개요 → 모수 θ의 추정에 사용되는 통계량을 θ의 추정량(θhat으로 표기)이라고 함 → 추정을 목적으로 하는 표본통계량 모수(θ) 👉 추정량(=표본통계량; θhat) - 추정치(관찰값) Q) 그렇다면 모수를 추정하는 방법은? 1> 점추정(point estimation) = 하나의 모수를 '한 개의 값'으로 추정 2> 구간추정(interval estimation) = '모수가 포함되리라 기대되는 구간으로 모수 추정' (점추정을 보완한 것) ※ 점 추정은 표본정보를 하나의 값으로 요약하여 모수를 추정하지만, 구간 추정은 모수가 포함될 것으로 예상되는 구간을 이용하여 모수 추정 → 점추정을 하면 얼마만큼의 신뢰도로 해당 모수를 추정해서 맞힐 수 있는 지 모르기에 구간추정을 통해 점추정의 한계를 보완 2.. Statistics/Concepts(+codes) 2022. 4. 15.
pandas Tricks_12👉🏻 'pivot_table()' (Kevin by DataSchool) 👆 tidy data 포스팅에서 우리는 tidy한 data를 만들기 위해 기존 dataframe을 melt한다고 하였고, 다시 원위치 시키기 위해 pivot_table()을 활용한다고 배웠다. Python/Pandas&Numpy 2022. 4. 14.
pandas Tricks_11👉🏻 'Reshaping → stack() & unstack()' (Kevin by DataSchool) Q. 데이터를 재구조화하는 방법? A. stack() & unstack() 사용! 🙂 ¶ stack() docu https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.stack.html DataFrame.stack(level=- 1, dropna=True) 'Stack the prescribed level(s) from columns to index. Return a reshaped DataFrame or Series having a multi-level index with one or more new inner-most levels compared to the current DataFrame. The new inner-most levels are.. Python/Pandas&Numpy 2022. 4. 14.