Machine Learning/Fundamentals16

Adjusted R-Squared vs. R-Squared 👨🏾‍💻 예전 포스팅에서 R-Squared에 대해 다룬 적이 있었는데, 이의 한계를 보완한 adjusted r-squared와 같이 비교하면서 심층적으로 알아보도록 하자. All About Evaluation Metrics(1/2) → MSE, MAE, RMSE, R^2 ** ML 모델의 성능을 최종적으로 평가할 때 다양한 evaluation metrics를 사용할 수 있다고 했음! ** (supervised learning - regression problem에서 많이 쓰이는 평가지표들) - 과정 (5) - 😙 그러면 차근차.. sh-avid-learner.tistory.com 1> R-squared (coefficient of determination) → r-squared는 모델이 얼마나 예측력이 .. Machine Learning/Fundamentals 2022. 6. 19.
All About Evaluation Metrics (2/2) → MAPE, MPE * 예전 포스팅에서 모델을 평가하기 위한 여러 평가기준에 대해서 알아보았다. → 크게, MSE, MAE, RMSE, R^2 4가지의 평가기준에 대해서 알아보았는데, 이번에는 추가로 MAPE, MPE에 대해서 알아보려 함! All About Evaluation Metrics(1/2) → MSE, MAE, RMSE, R^2 ** ML 모델의 성능을 최종적으로 평가할 때 다양한 evaluation metrics를 사용할 수 있다고 했음! ** (supervised learning - regression problem에서 많이 쓰이는 평가지표들) - 과정 (5) - 😙 그러면 차근차.. sh-avid-learner.tistory.com 5. MAPE(Mean Absolute Percentage Error) → .. Machine Learning/Fundamentals 2022. 6. 11.
Unsupervised Learning 📌 사실 ML에서 지도학습(Supervised Learning)보다 정답이 주어져 있지 않은, 비지도학습(Unsupervised Learning) 기법이 더 까다롭고, 정답이 주어져 있지 않아서 분석에 힘이 들 때가 많다. 📌 아래와 같이 label이 주어져 있지 않고 여러 개의 feature vector들의 모임을 통해 machine learning model에 집어넣는 형태이다. 📌 비지도학습(Unsupervised Learning)은 '정답이 주어져 있지 않은 data 그 자체를 머신러닝 알고리즘으로 분석하거나 클러스터링(clustering; 군집화)하는 과정'이다. intro. Machine Learning 1. 개론 → ML은 빅데이터를 분석할 수 있는 강력한 tool의 일종이다. 기존 통계학 .. Machine Learning/Fundamentals 2022. 6. 3.
PCA(w/code) 👏 저번 시간에 PCA의 개념 및 주축을 찾기까지의 자세한 과정을 여러 방면으로 분석해보고 알아보았다. PCA(concepts) * dimensionality reduction 기법 중 대표적인 방법인 PCA에 대해서 알아보자! concepts> ① 고차원의 data를 낮은 차원으로 차원 축소하는 기법 (dimensionality reduction) ② 기준이 되는 정보는 data의 분산! (분산 sh-avid-learner.tistory.com 👏 이제는 직접 code로 실행해 scree plot으로 시각화해보고 주어진 unsupervised data를 알맞게 clustering해 실제 data가 PC 축에 맞게 잘 분리가 되는지 체크해보는 과정까지 해 보려 한다! 👏 PCA에 대해서 배웠던 개념을 아.. Machine Learning/Fundamentals 2022. 5. 31.
PCA(concepts) * dimensionality reduction 기법 중 대표적인 방법인 PCA에 대해서 알아보자! concepts> ① 고차원의 data를 낮은 차원으로 차원 축소하는 기법 (dimensionality reduction) ② 기준이 되는 정보는 data의 분산! (분산을 통해 데이터가 흩어진 정도를 알 수 있기 때문) ③ 고차원 data의 정보(분산)를 최대한 유지하는 eigenvector를 찾고, 해당 vector에 대해 data를 linear projection하는 과정 - 예시 - Q. 2차원 상에 주어진 data를 1차원으로 축소하려고 할 때 아래 두 line 중 원본 data의 정보를 최대한 많이 살린 채로 축소된 것은? - 오른쪽 line을 골라야 한다! (기존 2차원 data 분산을 최대한.. Machine Learning/Fundamentals 2022. 5. 30.
Feature Selection vs. Feature Extraction 🧜‍♂️ 빅데이터의 경우 feature 수가 너무 많아서 데이터를 처리하는 데 복잡하다. 따라서 우리는 적절하게 중요 feature만 선택하거나, 기존 feature들을 재조합한 일부 feature만 선택할 수 있다. 🧜‍♂️ for dimensionality reduction.. → 모델 복잡성 감소, 과적합 현상 방지, 일반화 성능 향상, 모델 computation 효능 향상을 위해 기존 feature를 이용해 selection & extraction을 진행한다 🧜‍♂️ 데싸를 공부한다면 반드시! 거쳐가야 할, 학습해야 할 두 가지 technique - feature extraction(하단 좌) & feature selection(하단 우) - 🧜‍♂️ feature extraction은 기존의 f.. Machine Learning/Fundamentals 2022. 5. 18.
feature selection (1) - selectKBest (+jointplot) 🤳 예전 포스팅에서 '특성공학(feature engineering)'이 무엇인지에 대해 간략하게 개념 학습을 하였다. FE - Feature Engineering 1. Concepts * In real world, data is really messy - we need to clean the data * FE = a process of extracting useful features from raw data using math, statistics and domain knowledge - 즉, 도메.. sh-avid-learner.tistory.com 🏃‍♂️ 우리가 실생활의 data를 가지고 모델링하는 machine learning의 세계에서 무수히 많은 feature를 만날텐데, 이 모든 featur.. Machine Learning/Fundamentals 2022. 4. 20.
Ordinal Encoding 👀 머신러닝 모델은 모든 input과 output이 numeric 수치형이어야 한다는 전제조건이 깔려 있다! 즉, 우리가 마주한 data가 categorical variable이라면 모델에 집어넣기 전에 미리 numeric 수치형으로 바꾸어주는 작업이 필요한 것이다. 🕵️‍♂️ 그 중 대표적인 예로 One-Hot Encoding 기법에 대해 배웠다 One-Hot encoding ≫ ML 데이터 전처리 part에서 model이 이해할 수 있는 data로 변환하기 위해 여러 encoding 기법들이 적용된다고 하였고, 오늘은 그 중 하나인 'One-Hot encoding' 기법에 대해서 배우려고 한다 intro. Machine L. sh-avid-learner.tistory.com - 총 6가지 data t.. Machine Learning/Fundamentals 2022. 4. 20.
train vs. validation vs. test set (! -- 매우 간단한 개념 짚고 넘어가는 목적 --!) * ML modelling할 때 주어진 train set로 모델을 구축하고 미리 주어진 data에서 일부 test set으로 뽑아 나중에 model에 집어넣어 예측값을 뽑거나 해당 모델의 성능을 최종적으로 평가했다. 이런 일련의 과정 (train → test)을 앞선 모델에 계속 적용했는데, 이제는 validation set을 포함하여 이 세 종류의 set의 정확한 차이점을 알아보고 개념을 다지도록 하자! - train vs. validation vs. test - ☝️ 먼저 주어진 train 훈련 data로 모델을 학습시킴 ✌️ 기존 train 훈련 data에서 학습시킨 train data를 제외한 나머지 validation data로 학습된 모.. Machine Learning/Fundamentals 2022. 4. 18.
Gradient Descent (concepts) (+momentum) * 오늘도 머신러닝에서 꼭 배우고 가야 할 'Gradient Descent' 개념에 대해서 알아보고 가자 😇 *Gradient Descent는 일종의 최적화(optimization) algorithm 중 하나로 비용함수(비용)를 최소화하는 함수의 파라미터를 찾을 때 사용된다 *😔 잘 감이 오지 않음 저번에 배운 「SLR」 모델을 예로 들자면 Simple Linear Regression (concepts) ** 우리는 저번시간에 Supervised Learning - Regression - Linear Regression까지 concepts에 대해 배웠다 (↓↓↓↓↓↓ 하단 포스팅 참조 ↓↓↓↓↓↓) ML Supervised Learning → Regression → Linear Regr.. sh-avid.. Machine Learning/Fundamentals 2022. 4. 18.
One-Hot encoding ≫ ML 데이터 전처리 part에서 model이 이해할 수 있는 data로 변환하기 위해 여러 encoding 기법들이 적용된다고 하였고, 오늘은 그 중 하나인 'One-Hot encoding' 기법에 대해서 배우려고 한다 intro. Machine Learning 1. 개론 → ML은 빅데이터를 분석할 수 있는 강력한 tool의 일종이다. 기존 통계학 및 시각화로는 해결할 수 없는 한계를 보완함! 👏 데이터를 기반으로 앞으로의 미래를 예측하는 기법 👋 주어진 sh-avid-learner.tistory.com concepts 'One hot encoding can be defined as the essential process of converting the categorical data variable.. Machine Learning/Fundamentals 2022. 4. 17.
Cross-Validation (concepts + w/code) * 머신러닝을 위해서 무.조.건. 알아야 하는 CROSS-VALIDATION! 간단히 개념만 알아보ZA * * concepts> - 2번 과정 - model selection에서 주로 많이 쓰이는 cross-validation 기법 - 🧐 PURPOSE? 'The purpose of cross–validation is to test the ability of a machine learning model to predict new data. Q. 그러면 CV(Cross-Validation)에서는 무엇을 가지고 여러 모델의 성능을 평가할 수 있을까? A. 두 가지 필요 - train data & test data (from the dataset) 1) estimate the parameters for ML .. Machine Learning/Fundamentals 2022. 4. 17.