๐บ ์ด๋ฏธ ๋ฒ ์ด์ง์ ์ด๋ก ๊ณผ ๊ด๋ จํ ๋ฌธ์ ์ ๋ํด์ ์๋ ํฌ์คํ ์ ๋ค๋ฃฌ ๋ฐ ์์๋ค!
Bayesian Theorem '(example - 2 exercises)
Q1) At a certain stage of a criminal investigation, โ the inspector in charge is 60% convinced of the guilty of a certain suspect. Suppose now that a new piece of evidence that shows that โกth..
sh-avid-learner.tistory.com
๐บ ์ด์ ๋ฒ ์ด์ง์ ์ด๋ก ์ ๊ดํด ์์ธํ concept์ ๋ํด ์์๋ณด๋ ค ํจ!
concepts>
๐๐ป ๋ฒ ์ด์ฆ ์ ๋ฆฌ๋ ํ ๋ง๋๋ก '๋ฐ์ดํฐ๋ผ๋ ์กฐ๊ฑด์ด ์ฃผ์ด์ก์ ๋์ ์กฐ๊ฑด๋ถํ๋ฅ ์ ๊ตฌํ๊ธฐ'๋ผ๊ณ ๋งํ ์ ์๋ค
(์ฆ ๊ฒฐ๊ณผ(A)๊ฐ ์ฃผ์ด์ก์ ๋ ์์ธ(B1, B2, B3, ...)์ ๊ตฌํ๋ ํ๋ฅ )
๐๐ป Bayes Theorem ๋ ๊ฐ์ง ๊ฐ์
โ ํ๋ณธ๊ณต๊ฐ์ ๋ถํ
๐ณ๐ป ๋ถํ ๋ ์์ธ๋ค - ์ฆ ๊ฒฐ๊ณผ๋ฅผ ์ํ ์ฌ๋ฌ ์์ธ๋ค(B1, B2, B3 ~)์ด ์์ํ ๋ฐ ์ด ์์ธ๋ค์ ์๋ก ์ํธ๋ฐฐ๋ฐ(๊ต์งํฉ ์กด์ฌ x)์ด๋ฉฐ ํฉ์งํฉ์ ์ ์ฒด ํ๋ณธ๊ณต๊ฐ์ด๋ค
โก ์ ํ๋ฅ ๊ณต์
๐ณ๐ป ๊ฒฐ๊ณผ(A)์ ์์ธ(Bx)์ ์๋ค๋ฉด ๊ฒฐ๊ณผ์ ํ๋ฅ ์ ์๋๊ณผ ๊ฐ์ด ํํํ ์ ์๋ค
$$P(A) = P(A\cap B1) + ... + P(A\cap Bk) = P(B1)P(A|B1) + ... + P(Bk)P(A|Bk)$$
- (์๋ถํฐ) ๊ฐ์ โ - ๊ฐ์ โก - k=3์ผ ๋ ์ ํ๋ฅ ๊ณต์ ๋ฐ ํ๋ณธ๊ณต๊ฐ S ํํ -
๐๐ป ๋ ๊ฐ์ง ์ข ๋ฅ์ ํ๋ฅ ์ ์๋ฉด ๋ฒ ์ด์ฆ ์ ๋ฆฌ ์ ์ฉ์ด ๊ฐ๋ฅ!
โ ๋ถํ ๋ ์์ธ ์ฌ๊ฑด๋ค(B1 ~ Bk) ๊ฐ๊ฐ์ ํ๋ฅ $$P(B1), P(B2), ... P(Bk)$$
โก ๊ฐ ์์ธ ์ฌ๊ฑด๋ค(B1 ~ Bk)์ ์ ์ ๋ก ํ์ ๋ ๊ฒฐ๊ณผ์ฌ๊ฑด(A)์ด ๋ฐ์ํ ์กฐ๊ฑด๋ถ ํ๋ฅ $$P(A|B1), P(A|B2), ... P(A|Bk)$$
โข โ ๊ณผ โก๋ฅผ ์๋ฉด ๊ฒฐ๊ณผ์ฌ๊ฑด์ด ์ผ์ด๋ฌ๋ค๋ ์กฐ๊ฑด ํ์ ๋ฐ์ํ ์์ธ๋ค์ ํ๋ฅ ์ ๊ตฌํ ์ ์๋ค
$$P(Bi|A) = \cfrac{P(A \cap Bi)}{P(A)} = \cfrac{P(Bi)P(A|Bi)}{P(B1)P(A|B1) + ... + P(Bk)P(A|Bk)}$$
๐๐ป ์์
Q. ์ด๋ ํ ๊ณต์ฅ์์ ์ ํ์ ์์ฐํ๋ ๊ธฐ๊ณ๋ค์ ๋จ ์ธ ๋๋ง ์กด์ฌํ๋ค. ์ด๋ค ํ ์ ํ์ ๋ ๊ฐ ์ข ๋ฅ ์ด์์ ๊ธฐ๊ณ๋ค๋ก๋ถํฐ ์์ฐ์ด ๋ถ๊ฐ๋ฅ(์ํธ๋ฐฐ๋ฐ)ํ๋ค๊ณ ํ๋ค. ํด๋น ํ์ฌ ์ ํ์ ๋ฐ๋์ ์ด ์ธ ๊ฐ ์ ํ์ผ๋ก๋ง ์์ฐ์ด ๊ฐ๋ฅํ๋ค. ์ธ ๊ธฐ๊ณ B1, B2, B3์ ์์ฐ๋ฅ ์ ๊ฐ๊ฐ 0.2, 0.3, 0.5์ด๋ฉฐ ๊ฐ ๊ธฐ๊ณ๋ณ ๋ถ๋๋ฅ ์ B1, B2, B3 ๊ฐ๊ฐ 0.13, 0.11, 0.1์ด๋ค. ์ด ๋ (1)๋ถ๋์ด๋ผ๊ณ ํ์ ๋ ํน์ ๊ธฐ๊ณ๊ฐ ์์ธ์ผ ํ๋ฅ ๊ฐ ์ธ ๊ธฐ๊ณ ๊ฐ๊ฐ ๊ตฌํด๋ณด์. ๊ทธ๋ฆฌ๊ณ (2)์ด๋ค ์ข ๋ฅ์ ๊ธฐ๊ณ๊ฐ ๋ถ๋์ด๋ผ๊ณ ๋งํ ์ ์๋์ง ํ๋ฅ ์ด ์ ์ผ ๋์ ๊ธฐ๊ณ์ ์ข ๋ฅ๋ฅผ ์ฐพ์๋ณด์.
A.
* ๋ฌธ์ ๋ฅผ ๋ฒ ์ด์ฆ ์ด๋ก ์ ์ ์ฉํด ๊ฐ๋จํ ๊ทธ๋ฆผ์ผ๋ก ๋ํ๋ด๋ณด๋ฉด..>
P(B1), P(B2), P(B3) → P(A) (๊ฒฐ๊ณผ A์ฌ๊ฑด์ '๋ถ๋')
* โ ๊ฐ ์์ธ ์ฌ๊ฑด๋ค
→ P(B1) = 0.2
→ P(B2) = 0.3
→ P(B3) = 0.5
* โก ๊ฐ ๊ธฐ๊ณ๋ณ ๋ถ๋๋ฅ
→ P(A|B1) = 0.13
→ P(A|B2) = 0.11
→ P(A|B3) = 0.1
* โข ๋ถ๋์ด๋ผ๊ณ ํ์ ๋ ๊ฐ ๊ธฐ๊ณ๋ณ ์์ธ์ผ ํ๋ฅ
→ ๊ธฐ๊ณ B1) P(B1|A) = (0.2*0.13) / (0.2*0.13) + (0.3*0.11) + (0.5*0.1) = 26/109 โ 0.239
→ ๊ธฐ๊ณ B2) P(B2|A) = 33/109 โ 0.303
→ ๊ธฐ๊ณ B3) P(B3|A) = 50/109 โ 0.459
* โฃ ๋ถ๋์ด ์ผ์ด๋ฌ๋ค๋ฉด ๋ถ๋์์ธ์ด๋ผ ๋งํ ๊ฐ๋ฅ์ฑ์ด ์ ์ผ ๋์ ๊ธฐ๊ณ๋ B3์ด๋ค!
ํ์ฉ>
๐ฉ๐ฆฑ ๋ฒ ์ด์ง์ ์ด๋ก ์ ์ด๋ฏธ ์๊ณ ์๋ ์ฌ์ ํ๋ฅ ์ ํ ๋๋ก ์ดํ ์ฌํํ๋ฅ ์ ๊ณ์ฐํ๋ ๊ณผ์ - ์ฆ ์ง์์ ์ผ๋ก data๊ฐ ์ ๋ฐ์ดํธ๋๋ฉด์ ์ฌํํ๋ฅ ์ ์์๋ผ ๋ ๋ง์ด ์ฌ์ฉ๋๋ค.
๐ฉ๐ฆฑ ์ ์์ ์ค๋ช ์์ ์์ธ(B) → ๊ฒฐ๊ณผ(A) ํํ๋ก ์ ์ํ๋๋ฐ, ์ค์ํ์ ๊ฒฝ์ฐ B๋ ์ด๋ฏธ ํ๋ฅ ๊ฐ์ ์๊ณ ์๋ ์ฌ์ ํ๋ฅ (prior probability)์ด๊ณ , ์ฌ๊ธฐ์ A๋ผ๋ ์๋ก์ด ์ ๋ณด๊ฐ update๋๋ฉด์ ์ฐ๋ฆฌ๋ ์๊ณ ์๋ B๋ผ๋ ์ํฉ์์์ Aํ๋ฅ P(A|B)์ ์ป์ด๋ธ data๋ก ํ์ฉํด, ์ต์ข ์ ์ผ๋ก ์๋ก์ด ์ ๋ณด A๋ฅผ ์ป์ด๋ธ ์ํฉ์์์ ์ด๋ฏธ ์๊ณ ์๋ event B๊ฐ ๋ฐ์ํ ํ๋ฅ ์ธ P(B|A)๋ฅผ ์ป์ด๋ด๋ ๊ฒฝ์ฐ๋ก ๋ง์ด ์ฐ์ธ๋ค
๊ทธ๋ฌ๋ฉด ๋ค์! ์๋ฅผ ๋ค์ด๋ณด๋ฉด ๐จ๐พ
Q. ์ฌํ๊น์ง ์ง๊ตฌ์์ ๋ชจ๋ ์ธ๊ตฌ๊ฐ ํน์ ์ง๋ณ X์ ๋ํด 0.5%๋ง ๊ฐ์ง๊ณ ์๋ค(์ฌ์ ํ๋ฅ ; P(B) = 0.005)๊ณ ์๋ ค์ ธ ์์๋ค. ๊ทธ๋ฐ๋ฐ ์ด ์ง๋ณ์ ํ์งํ๋ ์๋ก์ด event A๊ฐ ์๊ฒจ๋ฌ๋ค(update - ๋ฒ ์ด์ง์ ํ๋ฅ ์ฌ์ฉ). ์ด ๋ฐฉ๋ฒ A๋ก 99%์ ํ๋ฅ ๋ก ์ง๋ณ์ ํ์งํ ์ ์๋ค๊ณ ํ๋ค(P(A|B) = 0.99). ๊ทธ๋ฌ๋ ๋์์ 1%์ ํ๋ฅ ๋ก ์ง๋ณ์ด ์๋๋ฐ๋ ์ง๋ณ์ด ์๋ค๊ณ ์ง๋จํ๋ค๊ณ ํ๋ค (P(A|Bc) = 0.01). ์ด ๋ ํ ํน์ ์ฌ๋์ด ์ด A ๋ฐฉ๋ฒ์ผ๋ก ์ง๋ณ์ด ์๋ค๊ณ ์ง๋จ ๋ฐ์์ ๋(A), ์ค์ ๋ก ์ง๋ณ์ ๊ฐ์ง๊ณ ์์(B) ํ๋ฅ (P(B|A))์?
(ํน์ ์ง๋ณ X์ ๋ํด ๊ฐ์ง๊ณ ์๊ฑฐ๋, ๊ฐ์ง๊ณ ์์ง ์์ ๋ ๊ฐ์ง case๋ง ์กด์ฌํ๋ค๊ณ ๊ฐ์ ํ๋ค)
A. P(B) = 0.005, P(A|B) = 0.99, P(A|Bc) = 0.01์ ์ด์ฉํด์ P(B|A)๋ฅผ ๊ตฌํ์!
→ P(B|A) = (P(B)*P(A|B)) / {(P(B)*P(A|B)) + P(Bc)*P(A|Bc)} = (0.005*0.99) / {(0.005*0.99) + (0.995*0.01)} โ 0.332
∴ ์ฆ! ์ฝ 33.2%์ ํ๋ฅ ๋ก ์ง๋ณ์ด ์๋ค๊ณ ์ง๋จ๋ฐ์ผ๋ฉด ์ค์ ๋ก ์ง๋ณ์ ๊ฐ์ง๊ณ ์๋ค๊ณ ๋งํ ์ ์๋ค
๐ฉ๐ฆฑ ํนํ ML ๋จธ์ ๋ฌ๋ ๋ถ์ผ์์, ์ฃผ์ด์ง dataset์์ ๊ฐ์ค์ ์ง์์ ์ผ๋ก ์ ๋ฐ์ดํธ ํด๊ฐ๋ฉฐ ์ต์ ์ ๋ชจ๋ธ์ ๊ตฌ์ํด ๊ฐ ๋ ์ฌ์ฉ๋๋ค. ์๋ก์ด ๊ฐ์ค, ์ฆ ์ ๋ณด๊ฐ update๋๋ฏ๋ก ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๊ฒฐ๊ตญ์ ๋์ด๊ธฐ ์ํด Bayesian Theorem ์ฌ์ฉ!
๐ Naive Bayesian Classifier ๋ชจ๋ธ + (Gaussian ๊น์ง) Bayseian ์ด๋ก ์ ํ์ฉํ model ๋ฐ ๊ฐ๋ ๋ค์ ์ถํ์ postingํ ์์ !
๐ ๋ํ ์์์ ์ธ๊ธํ๋ฏ์ด ๋จธ์ ๋ฌ๋ ๋ชจ๋ธ ๊ตฌ์ถ๊ณผ์ ๊ณผ Bayesian ๊ณ์ฐ ๊ณผ์ ์ด ์ผ๋งฅ์ํตํ๋ฏ๋ก ML์ ์ ๊ทผํ์ฌ์๋ ์ถ๊ฐ์ ์ผ๋ก ๊ณต๋ถํ ๊ฒ ๋ง์ ๋ถ๋ถ์! ์ถํ ํฌ์คํ ๋ค์ ํตํด ๋ ๊น์ด ์ดํดํ์!
* ์ถ์ฒ1) ProDS(์ด+์ค๊ธ)1
* ์ถ์ฒ2) https://www.youtube.com/watch?v=9wCnvr7Xw4E
'Statistics > Concepts(+codes)' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
Maximum Likelihood Estimation(MLE) (0) | 2022.06.26 |
---|---|
Auto-correlation + Durbin-Watson test (0) | 2022.06.17 |
distributionใpoisson distribution (ํฌ์์ก๋ถํฌ) (0) | 2022.05.06 |
distributionใbinomial distribution (์ดํญ๋ถํฌ) (0) | 2022.05.06 |
Central Limit Theorem (CLT; ์ค์ฌ๊ทนํ์ ๋ฆฌ) (0) | 2022.05.05 |
๋๊ธ