λ₯λ¬λκ³Ό λ¨Έμ λ¬λμμλ 'λ²‘ν° κ°μ μ μ¬λ'λ₯Ό μΈ‘μ ν΄μΌ νλ μΌμ΄ λ§€μ° λ§μ΅λλ€. μ΄λ μμ£Ό μ¬μ©λλ μ§ν μ€ νλκ° λ°λ‘ μ½μ¬μΈ μ μ¬λ(Cosine Similarity)μ
λλ€.
νΉν μμ°μ΄ μ²λ¦¬(NLP), μΆμ² μμ€ν
, μλ² λ© λΉκ΅ λ±μμλ μ ν΄λ¦¬λμ κ±°λ¦¬λ³΄λ€ λ°©ν₯μ±μ μ΄μ μ λ§μΆ μ½μ¬μΈ μ μ¬λκ° λ μ ν©ν κ²½μ°κ° λ§μ΅λλ€.
μ΄λ² κΈμμλ μ½μ¬μΈ μ μ¬λμ κ°λ
, μνμ μ μ, λ₯λ¬λ νμ© μ¬λ‘ κ·Έλ¦¬κ³ μ ν΄λ¦¬λμ 거리μμ μ°¨μ΄κΉμ§ ν λ²μ μ 리ν΄λ³΄κ² μ΅λλ€.
π λͺ©μ°¨
1. μ½μ¬μΈ μ μ¬λλ?
μ½μ¬μΈ μ μ¬λ(Cosine Similarity)λ λ λ²‘ν° μ¬μ΄μ ‘κ°λ’λ₯Ό κΈ°μ€μΌλ‘ μ μ¬λλ₯Ό μΈ‘μ νλ λ°©μμ
λλ€. λ 벑ν°κ° μΌλ§λ μ μ¬ν λ°©ν₯μ κ°μ‘λμ§λ₯Ό μμΉλ‘ λνλ΄λ©°, 벑ν°μ ν¬κΈ°(κΈΈμ΄)λ 무μνκ³ λ°©ν₯μ±λ§ κ³ λ €ν©λλ€.
μ£Όλ‘ λ²‘ν° κ° λ°©ν₯ λΉκ΅κ° μ€μν λ¬Έμ μ μ¬λ, λ¬Έμ₯ μλ² λ©, μΆμ² μμ€ν
λ±μμ λ리 μ°μ
λλ€.
2. μνμ μ μμ κ³μ° 곡μ
λ λ²‘ν° Aμ Bκ° μμ λ, μ½μ¬μΈ μ μ¬λλ λ€μκ³Ό κ°μ΄ κ³μ°ν©λλ€:
Cosine Similarity = (A · B) / (||A|| × ||B||)
- A · B : λ 벑ν°μ λ΄μ - ||A||, ||B|| : κ° λ²‘ν°μ ν¬κΈ°(λ
Έλ¦, norm)
→ κ²°κ³Όκ°μ **-1 ~ 1 μ¬μ΄μ κ°**μ κ°μ§λ©°, 1μ κ°κΉμΈμλ‘ μ μ¬λκ° λκ³ , -1μ κ°κΉμΈμλ‘ λ°λ λ°©ν₯μ μλ―Έν©λλ€.
3. λ₯λ¬λμμμ νμ© μ¬λ‘
- 1. λ¬Έμ/λ¬Έμ₯ μλ² λ© λΉκ΅: BERT, Word2Vec λ±μμ μΆμΆν λ²‘ν° κ° μ μ¬λ κ³μ°
- 2. μΆμ² μμ€ν : μ¬μ©μμ μμ΄ν κ° λ²‘ν° μ μ¬λ κΈ°λ° μΆμ²
- 3. μ±λ΄/QA μμ€ν : μ λ ₯ λ¬Έμ₯κ³Ό DB λ¬Έμ₯ κ° μλ―Έμ μ μ¬λ μΈ‘μ
- 4. ν΄λ¬μ€ν°λ§: ν μ€νΈ κΈ°λ° K-meansμμ 거리 λμ μ μ¬λλ‘ νμ©
νΉν NLPμμλ λ¬Έμ₯μ κΈΈμ΄λ λ¨μ΄ μλ³΄λ€ 'μλ―Έμ λ°©ν₯μ±'μ΄ μ€μνκΈ° λλ¬Έμ, μ½μ¬μΈ μ μ¬λκ° μ ν΄λ¦¬λμ κ±°λ¦¬λ³΄λ€ λ μ ν©ν κ²½μ°κ° λ§μ΅λλ€.
4. μ ν΄λ¦¬λμ 거리μμ μ°¨μ΄μ
νλͺ© | μ½μ¬μΈ μ μ¬λ | μ ν΄λ¦¬λμ 거리 |
---|---|---|
μ΄μ | 벑ν°μ λ°©ν₯ | λ²‘ν° κ° κ±°λ¦¬ |
λ²‘ν° ν¬κΈ° μν₯ | 무μ (μ κ·ν) | μν₯ μμ |
μ¬μ© λΆμΌ | NLP, μΆμ² μμ€ν | Siamese Network, KNN λ± |
→ λ λ°©μμ κ°κ°μ μ₯μ μ΄ μμΌλ©°, **λΉκ΅ λμμ νΉμ±**μ λ°λΌ μ ννλ κ²μ΄ μ€μν©λλ€. ν μ€νΈλ μλ―Έ μ€μ¬ λΆμμλ **μ½μ¬μΈ μ μ¬λ**, 거리 κΈ°λ° λΆλ₯λ ν΄λ¬μ€ν°λ§μλ **μ ν΄λ¦¬λμ 거리**κ° μΌλ°μ μΌλ‘ λ μ ν©ν©λλ€.
5. λ§λ¬΄λ¦¬ μμ½
μ½μ¬μΈ μ μ¬λλ λ₯λ¬λμμ λ²‘ν° κ° μλ―Έμ μ μ¬μ±μ λΉκ΅ν λ ν΅μ¬μ μΌλ‘ μ¬μ©λλ κ°λ
μ
λλ€.
νΉν ν
μ€νΈ κΈ°λ° μλ² λ© λ²‘ν°μμ λ§μ΄ νμ©λλ©°, λ°©ν₯μ κΈ°λ°ν λΉκ΅ λ°©μμ΄λΌλ μ μμ 거리 μ€μ¬μ μ ν΄λ¦¬λμ 거리μλ κ·Όλ³Έμ μΈ μ°¨μ΄κ° μμ΅λλ€.
λ₯λ¬λμ 곡λΆνκ±°λ μΆμ² μμ€ν
, λ¬Έμ₯ λΆμ λ±μ κ°λ°νκ³ μλ€λ©΄ λ°λμ μμ§ν΄μΌ ν μ μ¬λ μ§νμ
λλ€.