๐ฅ ๊ณผ์ ํฉ ๋ฌธ์ ๋ฅผ ํผํ๊ธฐ ์ํด ๊ธฐ์กดํ๊ท๊ณ์๋ค์ ์ ๊ณฑํฉ์ λ penalty๋ฅผ ๋ถ๊ณผํด ์๋ก์ด data์ ์๋ง์ ์์ธก์ ํ๊ฒ๋ ํด์ฃผ๋ Ridge ๊ท์ ์ ๋ํด ๋ฐฐ์ ๋ค.
๐ฅ ๋์ผํ Regularization์ธ๋ฐ, ์ฝ๊ฐ ๋ค๋ฅธ L1 Regularization - LASSO์ ๋ํด์ ์์๋ณด์
* Ridge & Lasso formula ์ ๋ฆฌ>
โ Ridge
Q. Ridge = '์ ๋น์ฉํจ์ $J(\beta)$๋ฅผ ์ต์๋ก ํ๋ ํ๊ท๊ณ์ $\hat{\beta}^R$๋ฅผ ์ฐพ๋ ๋ฌธ์
๐ฃ $J(\beta)$์๋ ๋ term์ด ์๋๋ฐ ์ด term๋ค์ ํฉ์ ์ต์๋ก ํ๋ ํ๊ท๊ณ์๋ค์ ๊ตฌํ๋ ๋ฌธ์ ๋ผ๊ณ ๋ฐ๊ฟ ํด์ํ ์ ์๊ณ , ์ด ์ค ๊ท์ ํญ์ด ๋ค์ด๊ฐ term๋ง ๋นผ๋ธ๋ค. ๊ฐ ํ๊ท๊ณ์๋ค์ ์ ๊ณฑํฉ์ด ์ต์๊ฐ ๋์ด์ผ ํ๋ฏ๋ก, ์ด๋ $\sum_{j=1}^{k} {\beta_j}^2$์ ๊ท์ ํญ์ ์ํด ์์์ ์์ t์ดํ์ฌ์ผ ํ๋ condition์ผ๋ก ๋ฐ๊ฟ ์ธ ์ ์๋ค. ๋ฐ๋ผ์ ์ด condition์ $J(\beta)$์์ ๋นผ๋ด๊ณ ๋ค์ ์ ๋ฆฌํ๋ฉด..
๐ฃ ์๊ฐํ๋ฅผ ์ฝ๊ฒ ํ๊ธฐ ์ํด $\beta_1, \beta_2$๋ฅผ x, y์ถ์ผ๋ก ํ๋ค๋ฉด, ๊ท์ ํญ์ ํ ์์ผ๋ก ํํ์ด ๋ ๊ฒ์ด๋ค. ๊ทธ๋ฆฌ๊ณ $\hat{\beta}^R$์ ์ด์ ํ ๊ฐ์ term์ผ๋ก ๋ง๋ค์ด์ก์ผ๋ฉฐ, ํด๋น term์ $\beta$๋ฅผ ๊ธฐ์ค์ผ๋ก ํ์ํ(elipse contour plot) ์์ด ๋ง๋ค์ด์ง๋ค. ํ์์ ์ค์ฌ์ด ํด๋น term์ด ์ต์๊ฐ ๋๋ ๊ณณ์ด๋ฉฐ, ์ ์ ํ์์ด ์ปค์ง์๋ก ํด๋น term์ ๊ฐ์ด ์ปค์ง๋ค.
๐ฃ ๊ท์ ํญ์ผ๋ก ํํ๋๋ ์๊ณผ ํ์์ด ์ต์ํ์ผ๋ก ํํ๋๋ ๊ณณ์ด ์๋ก ๋ง๋๋ ์ง์ (๋ง๋๊ธด ํด์ผํ๋ค. ๊ท์ ํญ์ ์ ์ฉํด์ผ ํ๋ฏ๋ก)์ด ์กด์ฌํ๋ค. ๋ง๋๊ธฐ๊น์ง์ ๊ฑฐ๋ฆฌ, ์ฆ ํ์๊ณผ ์ ์ฌ์ด์ ๊ฑฐ๋ฆฌ๊ฐ ์ต์๊ฐ ๋๋ ์ง์ ์ด ์ฐ๋ฆฌ๊ฐ ์ํ๋ ridge coefficients' vector ํด๊ฐ ๋๋ค.
โก Lasso
Q. Lasso = '์ ๋น์ฉํจ์ $J(\beta)$๋ฅผ ์ต์๋ก ํ๋ ํ๊ท๊ณ์ $\hat{\beta}^L$๋ฅผ ์ฐพ๋ ๋ฌธ์
๐ฃ Ridge์ ๋ชจ๋ ๋ถ๋ถ์ ๋์ผํ๊ณ , ๋ค๋ง ๊ท์ ํญ์ด ์ ๋๊ฐ์ด ๋ค์ด๊ฐ์ ํด๋น term์ ๋ฐ๋ก ๋นผ๋ด๋ฉด ์์์ ์์ t๊ฐ ๋ค์ด๊ฐ condition์ ์๋์ ๊ฐ์ด ์์ด ์๋, ๋ง๋ฆ๋ชจ๋ก ํํ๋๋ค.
๐ฃ ์ญ์ ๋ง๋ฆ๋ชจ์ ํ์์ด ๋ง๋๋ ์ง์ ์ด ์กด์ฌํด์ผ ํ ๊ฒ์ด๊ณ , ๋ ์ง์ ๊ฐ์ ๊ฑฐ๋ฆฌ๊ฐ ์ต์๊ฐ ๋๋ ๊ณณ์ด ์ฐ๋ฆฌ๊ฐ ์ํ๋ lasso coefficients' vector ํด๊ฐ ๋๋ค.
๐ฃ ๊ทธ ๊ฒฐ๊ณผ, ์์ผ๋ก ๊ท์ ํญ์ด ํํ๋ ridge์ ๊ฒฝ์ฐ ์ต์ ๊ฑฐ๋ฆฌ๋ก ๋ง๋๋ ์ง์ ์ x ๋๋ y์ถ์ ๊ฐ์ด ๋ ๋ค 0์ด ์๋ ๊ฒฝ์ฐ๊ฐ ๋๊ณ , lasso์ ๊ฒฝ์ฐ ๋ง๋ฆ๋ชจ ๊ท์ ํญ์ด๋ฏ๋ก ์ต์ ๊ฑฐ๋ฆฌ๋ก ๋ง๋๋ ์ง์ ์ด ์ฃผ๋ก x ๋๋ y ์ค ์ ์ด๋ ํ ๊ฐ ์ด์์ด 0์ด ๋๋, ์ฆ coefficient๊ฐ 0์ด ๋๋ ๊ฒฝ์ฐ๊ฐ ๋์ค๊ฒ ๋๋ค.
* Ridge & Lasso concept ๋น๊ต>
โ๏ธ ๋ ๋ค penalty ๊ฐ์ 0์์ +$\infty$์ด๋ฉฐ CV - cross validation ๊ธฐ๋ฒ์ผ๋ก ์ต์ ์ penalty ๊ฐ $\lambda$๋ฅผ ๊ตฌํ๋ค.
โ๏ธ ๋ชจ๋ธ๋ง์ ์ฐธ์ฌํ๋ variable์ด ๋๋ถ๋ถ ์ ์ฉํ๊ณ ์ฌ์ฉ๋์ด์ผ ํ๋ค๊ณ ํ๋จ๋๋ฉด Ridge
โ๏ธ ์ผ๋ถ variable์ ์ธ๋ชจ ์๋ค๊ณ ํ๋จ๋๋ฉด Lasso๋ฅผ ์ ์ฉ
<์ถํ ์คํ ์์ >
๐ซ 1) ์ํฉ๋ณ Ridge, Lasso ๋ชจ๋ธ์ ์ ์ฉํด๋ณด๊ณ ๊ณผ์ฐ ์์์ ์ ์ ๋๋ก, Ridge์ Lasso๊ฐ ์ ์ ํ ๋ ์ฐ์ด๋ฉด generalization ๋ฅ๋ ฅ์ด ์ข์์ง๋ ์ง ํ์ธ
๐ซ 2) Lasso coefficients ๋ณํ / Ridge coefficients ๋ณํ์ ๋น๊ตํด๋ณด๊ธฐ
๐ซ 3) ๊ธฐ์กด coefficients์ ํฌ๊ธฐ๊ฐ ํฌ๊ณ ์์์ ๋ฐ๋ฅธ lasso(+ridge) ๋ชจ๋ธ๋ง ํจ๊ณผ ๋น๊ต๋ถ์ํด๋ณด๊ธฐ
* ์ถ์ฒ1) STATQUEST ๐ฅ https://www.youtube.com/watch?v=NGf0voTMlcs
* ์ถ์ฒ2) ProDS (์ด๊ธ+์ค๊ธ1) ์ด๋ก ๊ฐ์
* ์ถ์ฒ3) ridge, lasso ์ฐจ์ด visualization https://www.youtube.com/watch?v=Xm2C_gTAl8c
'Machine Learning > Models (with codes)' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
K-Means Clustering (concepts + w/code) (0) | 2022.06.08 |
---|---|
Decision Trees (concepts) (0) | 2022.04.27 |
Logistic Regression Model (w/code) (0) | 2022.04.25 |
Polynomial Regression Model (0) | 2022.04.24 |
Logistic Regression Model (concepts) (0) | 2022.04.24 |
๋๊ธ