λ³Έλ¬Έ λ°”λ‘œκ°€κΈ°
IT/AI, λ”₯λŸ¬λ‹

λΉ„μ§€λ„ν•™μŠ΅ μ™„λ²½ 이해: 라벨 없이 λ°°μš°λŠ” 인곡지λŠ₯의 핡심

by πŸ”₯κΉ‘ λ‹€ κ³ ! 2025. 4. 1.

πŸ“š λͺ©μ°¨


1. 비지도 ν•™μŠ΅μ΄λž€ 무엇인가?

1-1. 비지도 ν•™μŠ΅μ˜ μ •μ˜

λ¨Έμ‹ λŸ¬λ‹μ—μ„œ κ°€μž₯ ν₯미둜운 μ˜μ—­ 쀑 ν•˜λ‚˜λŠ” λ°”λ‘œ 비지도 ν•™μŠ΅(Unsupervised Learning)μž…λ‹ˆλ‹€. 비지도 ν•™μŠ΅μ€ 지도 ν•™μŠ΅μ²˜λŸΌ 데이터에 'μ •λ‹΅'이 주어지지 μ•ŠλŠ” λ°©μ‹μœΌλ‘œ, μ•Œκ³ λ¦¬μ¦˜μ΄ 슀슀둜 λ°μ΄ν„°μ˜ νŒ¨ν„΄μ„ 찾도둝 ν›ˆλ ¨λ©λ‹ˆλ‹€. 즉, λ ˆμ΄λΈ” μ—†λŠ” 데이터λ₯Ό 기반으둜 데이터 λ‚΄μ˜ ꡬ쑰, ꡰ집, 뢄포 등을 ν•™μŠ΅ν•˜λŠ” 것이죠.

1-2. 지도 ν•™μŠ΅κ³Όμ˜ 차이점

지도 ν•™μŠ΅μ€ μž…λ ₯에 λŒ€ν•΄ 정닡이 주어지고, λͺ¨λΈμ΄ 이λ₯Ό μ˜ˆμΈ‘ν•˜λ„λ‘ ν•™μŠ΅ν•©λ‹ˆλ‹€. 반면 비지도 ν•™μŠ΅μ—μ„œλŠ” 정닡이 μ‘΄μž¬ν•˜μ§€ μ•ŠκΈ° λ•Œλ¬Έμ—, μ •ν™•λ„λ‚˜ 였차율 같은 λͺ…ν™•ν•œ μ§€ν‘œκ°€ μ—†μŠ΅λ‹ˆλ‹€. λŒ€μ‹  μ•Œκ³ λ¦¬μ¦˜μ€ 자체적인 κΈ°μ€€μœΌλ‘œ 데이터λ₯Ό κ·Έλ£Ήν™”ν•˜κ±°λ‚˜ 차원을 μΆ•μ†Œν•˜λŠ” λ“±μ˜ λ°©μ‹μœΌλ‘œ ν•™μŠ΅ν•©λ‹ˆλ‹€.


2. 비지도 ν•™μŠ΅μ˜ μ£Όμš” μ•Œκ³ λ¦¬μ¦˜

2-1. ν΄λŸ¬μŠ€ν„°λ§ (K-means, DBSCAN λ“±)

ν΄λŸ¬μŠ€ν„°λ§μ€ 데이터λ₯Ό μœ μ‚¬ν•œ νŠΉμ„±μ„ 가진 그룹으둜 λ‚˜λˆ„λŠ” κΈ°λ²•μž…λ‹ˆλ‹€. λŒ€ν‘œμ μΈ μ•Œκ³ λ¦¬μ¦˜μœΌλ‘œλŠ” K-means와 DBSCAN이 μžˆμŠ΅λ‹ˆλ‹€. 예λ₯Ό λ“€μ–΄ 고객을 μ„±ν–₯에 따라 κ·Έλ£Ήν™”ν•˜κ±°λ‚˜, λ‰΄μŠ€ 기사λ₯Ό μ£Όμ œλ³„λ‘œ λΆ„λ₯˜ν•˜λŠ” 데 ν™œμš©λ©λ‹ˆλ‹€.

2-2. 차원 μΆ•μ†Œ (PCA, t-SNE λ“±)

차원 μΆ•μ†ŒλŠ” 고차원 데이터λ₯Ό μ‹œκ°ν™”ν•˜κ±°λ‚˜ 처리 νš¨μœ¨μ„ 높이기 μœ„ν•œ κΈ°λ²•μž…λ‹ˆλ‹€. PCA(μ£Όμ„±λΆ„ 뢄석)κ³Ό t-SNEκ°€ λŒ€ν‘œμ μΈ λ°©λ²•μœΌλ‘œ μ‚¬μš©λ©λ‹ˆλ‹€. PCAλŠ” μˆ˜ν•™μ μœΌλ‘œ 정보 손싀을 μ΅œμ†Œν™”ν•˜λ©° 차원을 μΆ•μ†Œν•˜κ³ , t-SNEλŠ” μ‹œκ°ν™” λͺ©μ μ— λ›°μ–΄λ‚œ μ„±λŠ₯을 λ³΄μž…λ‹ˆλ‹€.

2-3. μ˜€ν† μΈμ½”λ”μ™€ 신경망 기반 방법

λ”₯λŸ¬λ‹μ—μ„œλŠ” μ˜€ν† μΈμ½”λ”(Autoencoder)λ₯Ό 톡해 비지도 ν•™μŠ΅μ΄ μ΄λ€„μ§‘λ‹ˆλ‹€. μž…λ ₯ 데이터λ₯Ό μ••μΆ• ν›„ λ³΅μ›ν•˜λ©° μ€‘μš”ν•œ νŠΉμ§•μ„ μžλ™μœΌλ‘œ μΆ”μΆœν•©λ‹ˆλ‹€. VAE(Variational Autoencoder), GAN(Generative Adversarial Network) 등도 비지도 ν•™μŠ΅μ˜ μ—°μž₯μ„ μž…λ‹ˆλ‹€.


3. 비지도 ν•™μŠ΅μ˜ ν™œμš© 사둀

3-1. 이상 탐지 및 νŒ¨ν„΄ 뢄석

비지도 ν•™μŠ΅μ€ 정상 νŒ¨ν„΄μ„ ν•™μŠ΅ν•œ ν›„ 이λ₯Ό λ²—μ–΄λ‚œ 데이터λ₯Ό '이상'으둜 인식할 수 μžˆμŠ΅λ‹ˆλ‹€. μ΄λŠ” μ‹ μš©μΉ΄λ“œ 사기 탐지, μ œμ‘°κ³΅μ • 였λ₯˜ 감지, λ„€νŠΈμ›Œν¬ μΉ¨μž… 탐지 등에 널리 ν™œμš©λ©λ‹ˆλ‹€.

3-2. μΆ”μ²œ μ‹œμŠ€ν…œ

λ„·ν”Œλ¦­μŠ€, 유튜브 λ“±μ˜ μΆ”μ²œ μ‹œμŠ€ν…œμ€ μœ μ €λ“€μ˜ 행동 νŒ¨ν„΄μ„ ν΄λŸ¬μŠ€ν„°λ§ν•˜κ±°λ‚˜, ν–‰λ ¬ λΆ„ν•΄λ₯Ό 톡해 μœ μ‚¬ μœ μ €/μ½˜ν…μΈ λ₯Ό μžλ™ λΆ„λ₯˜ν•©λ‹ˆλ‹€. μ΄λŸ¬ν•œ 뢄석은 λŒ€λΆ€λΆ„ 비지도 ν•™μŠ΅μ— μ˜ν•΄ μ§„ν–‰λ©λ‹ˆλ‹€.


4. 비지도 ν•™μŠ΅μ„ μœ„ν•œ μ‹€μ „ 팁

4-1. μ „μ²˜λ¦¬ 및 ν”Όμ²˜ μŠ€μΌ€μΌλ§ μ€‘μš”μ„±

비지도 ν•™μŠ΅μ€ λ³€μˆ˜ κ°„ 거리 기반 계산을 많이 ν™œμš©ν•˜κΈ° λ•Œλ¬Έμ—, μŠ€μΌ€μΌλ§μ€ ν•„μˆ˜μž…λ‹ˆλ‹€. StandardScaler λ˜λŠ” MinMaxScalerλ₯Ό μ‚¬μš©ν•΄ νŠΉμ„±λ“€μ˜ μŠ€μΌ€μΌμ„ λ§žμΆ°μ•Ό μ˜¬λ°”λ₯Έ κ²°κ³Όλ₯Ό 얻을 수 μžˆμŠ΅λ‹ˆλ‹€.

4-2. μ•Œκ³ λ¦¬μ¦˜ 선택 κΈ°μ€€

λ°μ΄ν„°μ˜ 밀도, λ…Έμ΄μ¦ˆ, ν˜•νƒœμ— 따라 μ μ ˆν•œ μ•Œκ³ λ¦¬μ¦˜μ„ 선택해야 ν•©λ‹ˆλ‹€. 예λ₯Ό λ“€μ–΄ 데이터가 밀집돼 있고 λ…Έμ΄μ¦ˆκ°€ 적닀면 K-meansκ°€ μ ν•©ν•˜κ³ , λ³΅μž‘ν•˜κ±°λ‚˜ μ΄μƒμΉ˜κ°€ λ§Žλ‹€λ©΄ DBSCAN이 더 λ‚˜μ€ 선택일 수 μžˆμŠ΅λ‹ˆλ‹€.


5. 마무리 및 μš”μ•½

비지도 ν•™μŠ΅μ€ 슀슀둜 데이터λ₯Ό νƒμƒ‰ν•˜κ³  ꡬ쑰λ₯Ό λ°œκ²¬ν•˜λŠ” κ³Όμ •μž…λ‹ˆλ‹€. λΉ„μ •ν˜•, λŒ€κ·œλͺ¨, 비라벨 데이터가 λ„˜μ³λ‚˜λŠ” μ˜€λŠ˜λ‚ , κ·Έ μ€‘μš”μ„±μ€ 갈수둝 컀지고 μžˆμŠ΅λ‹ˆλ‹€. λ‹€μ–‘ν•œ μ•Œκ³ λ¦¬μ¦˜μ„ μ΄ν•΄ν•˜κ³  μ‹€μ „ μ μš©ν•΄λ³΄λ©΄, 비지도 ν•™μŠ΅μ˜ 잠재λ ₯을 λ”μš± 깊이 있게 체감할 수 μžˆμ„ κ²ƒμž…λ‹ˆλ‹€.