๐ ์ ๋ฒ ์๊ฐ์ MLE์ ๋ํด์ ๋ฐฐ์ ๋ค. ๊ทธ๋ฆฌ๊ณ ์์ ๋ก MLE ๊ธฐ๋ฒ์ logistic regression์ ์ ์ฉํด ์ต์ ์ sigmoid ํจ์๋ฅผ ์ด๋ป๊ฒ ๊ตฌํ๋ ์ง ์ํ์ ์ผ๋ก ์์์ ํตํด ์์๋ณด์๋ค.
๐ ์ด๋ฒ ์๊ฐ์๋ logistic์ด ์๋ normal distribution์ MLE ๊ธฐ๋ฒ์ ์ ์ฉํด ์ฃผ์ด์ง data๋ฅผ ๊ฐ์ฅ ์ ์ค๋ช ํ๋ normal distribution์ ๋ ๋ชจ์์ธ $\mu$์ $\sigma$๋ฅผ ์ฐพ์ ์ต์ ์ normal distribution์ ์์๋ณด๋ ์๊ฐ์ ๊ฐ์ ธ๋ณด๋ ค ํ๋ค.
Maximum Likelihood Estimation(MLE)
๐ ๋ก์ง์คํฑ ํ๊ท ํฌ์คํ ์์ MLE๊ธฐ๋ฒ์ ํตํด model์ ๊ฒฐ์ ํ๋ค๊ณ ํ์๋ค. ๋ก์ง์คํฑ ํ๊ท์ ์์ ๋ deepํ๊ฒ ์ํ์ ์ผ๋ก ๋ค์ด๊ฐ, ์ด๋ค ๋ชจ๋ธ์ ๊ณ ๋ฅผ ์ง ์์์ผ๋ก ์ฐ์ฐํ๋ ๊ณผ์ ์์ MLE๊ฐ ํต์ฌ์ผ๋ก
sh-avid-learner.tistory.com
* normal distribution ๊ฐ์>
$pr(x|\mu, \sigma)$ = $\cfrac{1}{\sigma \sqrt{2\pi}}$ $e^{-\cfrac{1}{2}(\cfrac{x - \mu}{\sigma})^2}$
→ ์ ๊ทธ๋ฆผ์์ ๋ณด๋ฏ์ด distribution์ ์ด๋ ๋ฐฉํฅ์ $\mu$๊ฐ ๊ฒฐ์ ํด์ค๋ค. ๋ถํฌ ์ ์ฒด์ ํ๊ท ์ธ ์ค์ฌ์ ๋ปํ๋ค. $\mu$ ๊ฐ์ด ํฌ๋ฉด ์ค๋ฅธ์ชฝ์ผ๋ก ์ด๋, ์์ผ๋ฉด ์ผ์ชฝ์ผ๋ก ์ด๋ํ๋ค.
→ distribution์ ๋๋น, ์ฆ ์ ์์ผ๋ก ํผ์ง ์ ๋๋ $\sigma$๊ฐ ๊ฒฐ์ ํด์ค๋ค. $\sigma$ ๊ฐ์ด ํด์๋ก ์ ์์ผ๋ก ํผ์ง๊ณ , ์์์๋ก ์๋ก ๋พฐ์กฑํด์ง๋ค.
๐ฟ ์ฐ๋ฆฌ๋ ํด๋น distribution ํจ์๋ฅผ likelihood๋ก ๋์ด ํด๋น likelihood๊ฐ ์ต๋๊ฐ ๋ ๋์ distribution์ ์ฐพ์ผ๋ ค ํ๋ค (๋ ๋ชจ์ ์ฐพ๊ธฐ)
๐ฟ $L(\mu, \sigma|x)$ = $\cfrac{1}{\sigma \sqrt{2\pi}}$ $e^{-\cfrac{1}{2}(\cfrac{x - \mu}{\sigma})^2}$
๐ฟ speculation) ์ฃผ์ด์ง x data๋ค์ด ์์ ๋, ํด๋น x data๋ค์ ๊ฐ์ฅ ์ ์ค๋ช ํ๋ normal distribution์ ์ฃผ์ด์ง x data์ ํ๊ท ์ด ํด๋น distribution์ ๋ชจ์ $\mu$์ด๊ณ , ์ฃผ์ด์ง x data์ ํ์คํธ์ฐจ๊ฐ distribution์ $\sigma$๋ผ๊ณ ์ถ์ธกํ ์ ์๋ค.
๐ฟ MLE ๊ธฐ๋ฒ์ผ๋ก ์ฆ๋ช ํด๋ณด์.
* using MLE>
โป ์ฃผ์ - ๋ชจ์๊ฐ 2๊ฐ ์ด์์ธ ๊ฒฝ์ฐ ๊ฐ ๋ชจ์๋ณ๋ก ํธ๋ฏธ๋ถํ ๋, ๋ค๋ฅธ ๋ชจ์๋ constant ์ทจ๊ธํ ์ฑ๋ก ํธ๋ฏธ๋ถ
โ ์ ์ฒด likelihood๋ ๊ฐ x point๋ณ likelihood๋ฅผ ๋ชจ๋ ๊ณฑํ ๊ฐ์ด๋ค
→ $L(\mu, \sigma | x_1, x_2, ... , x_n) $ = $L(\mu, \sigma | x_1)$ x $L(\mu, \sigma | x_n)$ = $\cfrac{1}{\sigma \sqrt{2\pi}}$ x $e^{-\cfrac{1}{2}(\cfrac{x_1 - \mu}{\sigma})^2}$ x ... x $\cfrac{1}{\sigma \sqrt{2\pi}}$ x $e^{-\cfrac{1}{2}(\cfrac{x_n - \mu}{\sigma})^2}$
โก ๋ฏธ๋ถ์ฐ์ฐ ํธ์๋ฅผ ์ํด ์๋ณ์ ln ๋ก๊ทธ๋ฅผ ์ทจํ๋ฉด
→ $ln[L(\mu, \sigma | x_1, x_2, ... , x_n)]$ = $ln($$\cfrac{1}{\sigma \sqrt{2\pi}}$ x $e^{-\cfrac{1}{2}(\cfrac{x_1 - \mu}{\sigma})^2}$ x ... x $\cfrac{1}{\sigma \sqrt{2\pi}}$ x $e^{-\cfrac{1}{2}(\cfrac{x_n - \mu}{\sigma})^2}$)
โข ์ฐ๋ณ ln์ ์ญ ํ๊ณ ๊ณ์ฐํ๋ฉด
→ = $ln($$\cfrac{1}{\sigma \sqrt{2\pi}}$ x $e^{-\cfrac{1}{2}(\cfrac{x_1 - \mu}{\sigma})^2}$) + ... + $ln($$\cfrac{1}{\sigma \sqrt{2\pi}}$ x $e^{-\cfrac{1}{2}(\cfrac{x_n - \mu}{\sigma})^2}$)
= $ln[(2\pi\sigma^2)^{-1/2}]$ - $\cfrac{(x_1 - \mu)^2}{2\sigma^2}$$ln(e)$ + ... + $ln[(2\pi\sigma^2)^{-1/2}]$ - $\cfrac{(x_n - \mu)^2}{2\sigma^2}$$ln(e)$
= -$\cfrac{1}{2}$$ln(2\pi\sigma^2)$ - $\cfrac{(x_1 - \mu)^2}{2\sigma^2}$ + ... + -$\cfrac{1}{2}$$ln(2\pi\sigma^2)$ - $\cfrac{(x_n - \mu)^2}{2\sigma^2}$
= -$\cfrac{1}{2}$$ln(2\pi)$ -$\cfrac{1}{2}$$ln(\sigma^2)$ - $\cfrac{(x_1 - \mu)^2}{2\sigma^2}$ + ... + -$\cfrac{1}{2}$$ln(2\pi)$ -$\cfrac{1}{2}$$ln(\sigma^2)$ - $\cfrac{(x_n - \mu)^2}{2\sigma^2}$
= -$\cfrac{1}{2}$$ln(2\pi)$ -$ln(\sigma)$ - $\cfrac{(x_1 - \mu)^2}{2\sigma^2}$ + ... + -$\cfrac{1}{2}$$ln(2\pi)$ -$ln(\sigma)$ - $\cfrac{(x_n - \mu)^2}{2\sigma^2}$
โฃ ๊ณตํต๋ ํญ๋ค์ ๋ฌถ์ด ํํํ๋ฉด ln ์ฐ์ฐ์ ๊ฐ๋จํ๊ฒ ์์ฑํ ์ ์๋ค.
→ = -$\cfrac{n}{2}$$ln(2\pi)$ -$nln(\sigma)$ - $\cfrac{(x_1 - \mu)^2}{2\sigma^2}$ - ... - $\cfrac{(x_n - \mu)^2}{2\sigma^2}$
โค (1) ์ด์ $\mu$์ ๊ดํ ํธ๋ฏธ๋ถ์ ํด๋ณด๋ฉด
→ $\cfrac{\partial}{\partial\mu}$ $ln[L(\mu, \sigma | x_1, x_2, ... , x_n)]$ = 0 - 0 + $\cfrac{x_1 - \mu}{\sigma^2}$ + ... + $\cfrac{x_n - \mu}{\sigma^2}$
= $\cfrac{1}{\sigma^2}$ $[(x_1 + ... + x_n) - n\mu]$
โฅ (2) $\sigma$์ ๊ดํ ํธ๋ฏธ๋ถ์ ํด๋ณด๋ฉด
→ $\cfrac{\partial}{\partial\sigma}$ $ln[L(\mu, \sigma | x_1, x_2, ... , x_n)]$ = 0 -$\cfrac{n}{\sigma}$ + $\cfrac{(x_1 - \mu)^2}{\sigma^3}$ + ... + $\cfrac{(x_n - \mu)^2}{\sigma^3}$ = -$\cfrac{n}{\sigma}$ + $\cfrac{1}{\sigma^3}$$[(x_1 - \mu)^2 + ... + (x_n - \mu)^2]$
โฆ ๋ ๋ชจ์์์ ํธ๋ฏธ๋ถ ๊ฐ์ด 0์ผ ๋๋ฅผ ํ์ธ (์ต๋์น์ด๋ฏ๋ก)
→ 1> 0 = $\cfrac{1}{\sigma^2}$ $[(x_1 + ... + x_n) - n\mu]$
↔ 0 = $(x_1 + ... x_n) - n\mu$
↔ $\mu$ = $\cfrac{(x_1 + ... x_n)}{n}$
→ 2> 0 = -$\cfrac{n}{\sigma}$ + $\cfrac{1}{\sigma^3}$$[(x_1 - \mu)^2 + ... + (x_n - \mu)^2]$
↔ 0 = $-n$ + $\cfrac{1}{\sigma^2}$$[(x_1 - \mu)^2 + ... + (x_n - \mu)^2]$
↔ $\sigma$ = $\sqrt{\cfrac{(x_1 - \mu)^2 + ... + (x_n - \mu)^2}{n}}$
โง ๊ฒฐ๊ณผ, ์ต์ ์ $\mu$๋ ์ฃผ์ด์ง data์ ํ๊ท , ์ต์ ์ $\sigma$๋ ์ฃผ์ด์ง data์ ํ์คํธ์ฐจ์์ MLE ๊ธฐ๋ฒ์ ํตํด ์ฆ๋ช ํ์๋ค!
(์์ speculation์ด ๋ง์์ ํ์ธ ๊ฐ๋ฅ)
* ์ถ์ฒ) ๊ฐ STATQUEST https://www.youtube.com/watch?v=Dn6b9fCIUpM
* ์ฌ์ง, ์ธ๋ฌ์ถ์ฒ) https://www.boost.org/doc/libs/1_49_0/libs/math/doc/sf_and_dist/graphs/normal_pdf.png
'Statistics > Concepts(+codes)' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
Maximum Likelihood Estimation(MLE) (0) | 2022.06.26 |
---|---|
Auto-correlation + Durbin-Watson test (0) | 2022.06.17 |
Bayesian Theorem (0) | 2022.05.07 |
distributionใpoisson distribution (ํฌ์์ก๋ถํฌ) (0) | 2022.05.06 |
distributionใbinomial distribution (์ดํญ๋ถํฌ) (0) | 2022.05.06 |
๋๊ธ