๐ ์ฌ์ค ML์์ ์ง๋ํ์ต(Supervised Learning)๋ณด๋ค ์ ๋ต์ด ์ฃผ์ด์ ธ ์์ง ์์, ๋น์ง๋ํ์ต(Unsupervised Learning) ๊ธฐ๋ฒ์ด ๋ ๊น๋ค๋กญ๊ณ , ์ ๋ต์ด ์ฃผ์ด์ ธ ์์ง ์์์ ๋ถ์์ ํ์ด ๋ค ๋๊ฐ ๋ง๋ค.
๐ ์๋์ ๊ฐ์ด label์ด ์ฃผ์ด์ ธ ์์ง ์๊ณ ์ฌ๋ฌ ๊ฐ์ feature vector๋ค์ ๋ชจ์์ ํตํด machine learning model์ ์ง์ด๋ฃ๋ ํํ์ด๋ค.
๐ ๋น์ง๋ํ์ต(Unsupervised Learning)์ '์ ๋ต์ด ์ฃผ์ด์ ธ ์์ง ์์ data ๊ทธ ์์ฒด๋ฅผ ๋จธ์ ๋ฌ๋ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ๋ถ์ํ๊ฑฐ๋ ํด๋ฌ์คํฐ๋ง(clustering; ๊ตฐ์งํ)ํ๋ ๊ณผ์ '์ด๋ค.
intro. Machine Learning
1. ๊ฐ๋ก → ML์ ๋น ๋ฐ์ดํฐ๋ฅผ ๋ถ์ํ ์ ์๋ ๊ฐ๋ ฅํ tool์ ์ผ์ข ์ด๋ค. ๊ธฐ์กด ํต๊ณํ ๋ฐ ์๊ฐํ๋ก๋ ํด๊ฒฐํ ์ ์๋ ํ๊ณ๋ฅผ ๋ณด์ํจ! ๐ ๋ฐ์ดํฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์์ผ๋ก์ ๋ฏธ๋๋ฅผ ์์ธกํ๋ ๊ธฐ๋ฒ ๐ ์ฃผ์ด์ง
sh-avid-learner.tistory.com
๐ ํฌ๊ฒ ์๋์ ๊ฐ์ด ๋๋ ์ ์๋ค.
๐ dimensionality reduction
→ ์ฐจ์์ถ์๊ธฐ๋ฒ์ ๋น์ง๋ํ์ต์ ์ผ์ข ์ด๋ค. ์ผ์ข ์ ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ ๋จ๊ณ์์ ์ ๋ต์ด ์ฃผ์ด์ ธ ์๋ data๋ผ๋ ์ฐจ์์ ๋ณต์ก์ฑ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ฐจ์์ถ์ ๊ธฐ๋ฒ์ ์ฌ์ฉํ๊ธฐ๋ ํ๋ค. ํ์ง๋ง, ๋๋ถ๋ถ ์ ๋ต์ด ์ฃผ์ด์ ธ ์์ง ์์ data์์ ์ฐ์ฐํ๊ธฐ์ ์ฐจ์์ด ๋๋ฌด ๋ง๋ค๋ฉด ํด๋น ์ฐจ์ ์ถ์ ๊ธฐ๋ฒ์ ์ฌ์ฉํด data๋ฅผ ๋ถ์ํ๊ณ , ์ธ์ฌ์ดํธ๋ฅผ ์ป๊ธฐ ์ข๊ฒ ๋ง๋ ๋ค.
→ ๋ํ์ ์ธ ์๋ก PCA๋ฅผ ๋ฐฐ์
- PCA(concepts) https://sh-avid-learner.tistory.com/entry/feature-extraction1-PCAPrincipal-Component-Analysis-concepts
- PCA(w/code) https://sh-avid-learner.tistory.com/entry/feature-extraction1-PCAPrincipal-Component-Analysis-wcode
๐ clustering
→ ์ฃผ์ด์ง ๊ทธ data ์์ฒด๋ฅผ ์ ์ฌ์ฑ์๋ data๋ผ๋ฆฌ ์ ๋ณํด ์ผ์ข ์ ์ฌ๋ฌ group์ผ๋ก ๋ง๋๋ ๊ณผ์ ์ด๋ค.
→ ์ฃผ์ด์ง dataset์ ์์ฝ/์ ๋ฆฌํด์ฃผ๋ ์๋ฏธ๊ฐ ์์ผ๋ฉฐ, ์ฃผ๋ก EDA ๊ณผ์ ์์ ๋ง์ด ์ฌ์ฉํจ
→ clustering algorithm ์ข ๋ฅ๋ ๋๊ฒ ๋ง๋ค! ์๋ ๊ทธ๋ฆผ ์ค ๋ํ์ ์ธ partition, hierarchy, distribution, density ๋ค ๊ฐ์ ๋ํด์ ๊ฐ๋ตํ ์์๋ณด์.
> โ hierarchical clustering
โซ ํฌ๊ฒ ๋ ๊ฐ์ง๋ก, (1) agglomerative: ๊ฐ๋ณ ํฌ์ธํธ์์ ์์ํ ํ ํฉ์ณ ๋๊ฐ๋ ๋ฐฉ์;bottom-up approach & (2) divisive: ํ ๊ฐ์ ํฐ cluster์์ ์์ ํ ์ ์ ์์ cluster๋ก ๋๋์ด ๊ฐ๋ ๋ฐฉ์; top-down approach๋ก ๋๋ ์ ์๋ค.
โซ ์ผ์ข ์ hierarchy๊ฐ ์์ฑ๋๋ฏ๋ก tree ๊ตฌ์กฐ์ ํํ์ธ dendrogram์ด ๋ง๋ค์ด์ง๋ค. ์ผ๋ฐ์ ์ผ๋ก hierarchical clustering์ ์์ํ๊ธฐ ์ ์ ์ด๋ฏธ ๋ช ๊ฐ์ cluster๋ก ๋๋ ์ง k๋ฅผ ์ ํด๋๊ณ , ์์ฑ๋ dendrogram์์ depth๋ฅผ ๊ตฌ์ฒด์ ์ผ๋ก ์ ํด ์๋ผ๋ด๋ ๋ฐฉ์์ผ๋ก ์งํ๋๋ค. ์ฆ, ๋ค๋ฅธ ์ข ๋ฅ์ cluster method์ ๋ค๋ฅธ ์ข์ ์ ์, ๋ฏธ๋ฆฌ k๋ฅผ ์ ํ๋๋ผ๋, ์ํฉ์ ๋ฐ๋ผ ๋์ค์๋ผ๋ ๋ด๊ฐ ์ํ๋ cluster์ ๊ฐ์(k)๋ฅผ ์ ํ๊ณ ์๋ผ๋ผ ์ ์๋ค๋ ์ !
โซ hierarchical clustering์ ํตํด ๋ถ๋ฅ๋๋ data objects๊ฐ์ ๊ด๊ณ์ ๊ด๋ จ๋ ์์ธํ ๋ํ ์ผ์ ์ ์ ์๊ณ , dendrgram์ด ์ ๊ณต๋๋ค
โซ ๋จ์ ์, ์ฐ์ฐ ์ ๋น์ธ๋ฉฐ(high cost), ์ก์๊ณผ ์ด์์น์ ๋ฏผ๊ฐํ๋ค.
โซ deterministic process๋ก ์๊ณ ๋ฆฌ์ฆ์ ๋ช ๋ฒ์ ๋๋ ค๋ ์ด๋ฏธ ์ ํด์ง cluster๊ฐ ๋ค์๋ ๋ณํ์ง ์์!
> โก partitional(centroid-based) clustering
โซ cluster๋ณ centroid ์ค์ฌ์ ๊ธฐ์ค์ผ๋ก clustering๋๋ฉฐ, ์ฆ ๋ชจ๋ data๋ ๊ฐ๊ฐ ํ ๊ฐ์ cluster์๋ง ๋ค์ด๊ฐ ์ ์๋ hard clustering ๊ธฐ๋ฒ
โซ ์ฆ clustering method ์ ์ฉ ์ cluster ๊ฐ์ k๋ฅผ ๋จผ์ ์ ํด์ผ ํ๋ค.
โซ ์ฃผ๋ก iteration์ ๊ฑฐ์น๋ฉฐ ๊ณ์ํด์ clustering ๊ณผ์ ์ ๊ฑฐ์ณ ์ฌ๋ฌ ๋ฌถ์์ ํ์ฑํ๋ค.
โซ ๋ํ์ ์ธ ์๋ก k-means & k-medoids๊ฐ ์์!
โซ ์ฌ๋ฌ ๋ฒ ๋๋ฆด ๋ ๋ง๋ค ๋ค๋ฅธ ๊ฒฐ๊ณผ๊ฐ ๋์ฌ ์ ์์ผ๋ฏ๋ก nondeterministic process
โซ cluster๋ค์ด ์ํ์ ํํ๋ฅผ ๋ณด์ผ ๋ ์ฝ๊ฒ clustering์ด ๊ฐ๋ฅํ ์ฅ์ ์ด ์๊ณ , ๊ทธ ๋ฐ๋๋ก ๋ณต์กํ ํํ๋ฅผ ๋ณด์ด๋ฉด clustering๋๊ธฐ ์ด๋ ต๋ค.
โซ ์๊ณ ๋ฆฌ์ฆ ๋ณต์ก์ฑ์ ๊ธฐ์ธํด ์๊ฐ ๋ณต์ก๋ ์ธก์ ์ด ๊ฐ๋ฅํ์ง๋ง, ๋ค์ํ density๋ฅผ ๊ฐ์ง cluster์ ๊ฒฝ์ฐ ์ ํฉํ์ง ์์ method์ด๋ค!
> โข density-based clustering
โซ ์๋ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ด ํ์์ ๊ณผ ๊ฐ์ outlier๋ clustering์์ ์ ์ธ
โซ ๋ฐ์ง๋ data๋ผ๋ฆฌ ์ด๋ค ๋ํ์ผ๋ก๋ผ๋ ๋ฌถ๋ clustering (distance-based)
โซ ๋ค์ํ density๋ ๋์ ์ฐจ์์ ๊ฒฝ์ฐ clusteringํ ๋ ์ด๋ ค์์ด ์์
โซ ๋ค๋ฅธ clustering๊ณผ ๋ค๋ฅด๊ฒ density-based๋ clustering ๊ฐ์ k๋ฅผ ๋ฏธ๋ฆฌ ์ ํ ํ์๊ฐ ์๋ค.
โซ DBSCAN, OPTICS์ ๊ฐ์ ์๊ณ ๋ฆฌ์ฆ ์กด์ฌ
> โฃ distribution-based clustering
โซ ์ผ๋จ data๊ฐ ํน์ ๋ถํฌ๋ฅผ ๋ฐ๋ฅธ๋ค๋ ๊ฐ์ ๋ถํฐ ์ถ๋ฐํ๋ค.
โซ ์ฆ ๋ถํฌ๋ฅผ ๋ชจ๋ฅธ๋ค๋ฉด ๋ค๋ฅธ clustering๋ฐฉ๋ฒ์ ์จ์ผ ํจ
โซ data๊ฐ ์ฃผ์ด์ง ๋ถํฌ์์ ๋ง์ด ๋ฒ์ด๋ ์๋ก ์๋์ ์ผ๋ก ์ ์ ์์ ์ํ๋ค. (์๋ ๊ทธ๋ฆผ ์ฐธ์กฐ)
- (ํ๋จ) ๊ทธ๋ฆผ ์ฐธ์กฐ -
<์๋จ ์ข - ์ฐ - ํ๋จ ์ข - ์ฐ ์ฐจ๋ก๋ก โ -โก-โข-โฃ>
๐ ์ฐ๊ด๊ท์นํ์ต (association rule learning)
→ ๋ฐ์ดํฐ์ ์ feature๋ค๊ฐ์ ๊ด๊ณ๋ฅผ ๋ฐ๊ฒฌํ๋ ๋ฐฉ๋ฒ์ด๋ค.
* ์ธ๋ค์ผ ์ถ์ฒ) https://mark-youngson5.medium.com/artificial-intelligence-the-beginning-of-a-new-era-3e3838807887
* ์ถ์ฒ1) clustering ๊ฐ๋ https://realpython.com/k-means-clustering-python/
* ์ถ์ฒ2) clustering ์ข ๋ฅ ๊ด๋ จ ๋ ผ๋ฌธ https://link.springer.com/article/10.1007/s40745-015-0040-1
* ์ถ์ฒ3) clustering ์ข ๋ฅ๋ณ ์ค๋ช https://developers.google.com/machine-learning/clustering/clustering-algorithms
* ์ถ์ฒ4) unsupervised learning ๊ณผ์ https://ogrisel.github.io/scikit-learn.org/sklearn-tutorial/tutorial/text_analytics/general_concepts.html#machine-learning-101-general-concepts
* ์ถ์ฒ5) hard vs. soft clustering) https://medium.com/fintechexplained/machine-learning-hard-vs-soft-clustering-dc92710936af
'Machine Learning > Fundamentals' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
Adjusted R-Squared vs. R-Squared (0) | 2022.06.19 |
---|---|
All About Evaluation Metrics (2/2) โ MAPE, MPE (0) | 2022.06.11 |
PCA(w/code) (0) | 2022.05.31 |
PCA(concepts) (0) | 2022.05.30 |
Feature Selection vs. Feature Extraction (0) | 2022.05.18 |
๋๊ธ