λ₯λ¬λμμ μ΄λ―Έμ§ λΆλ₯λ λ¬Έμ₯ λΆλ₯μ κ°μ λ€μ€ ν΄λμ€ λΆλ₯ λ¬Έμ λ₯Ό νκΈ° μν΄μλ ν΄λμ€λ³λ‘ μμΈ‘ νλ₯ μ κ³μ°ν μ μμ΄μΌ ν©λλ€. μ΄λ κ°μ₯ λ§μ΄ μ°μ΄λ ν¨μκ° λ°λ‘ μννΈλ§₯μ€ ν¨μ(Softmax Function)μ
λλ€.
μννΈλ§₯μ€λ μ¬λ¬ κ°μ μ«μ μΆλ ₯κ°μ νλ₯ κ°(μ΄ν© 1)μΌλ‘ λ³νν΄ μ£ΌκΈ° λλ¬Έμ μΆλ ₯μΈ΅μμ κ° ν΄λμ€μ μν νλ₯ μ μ§μ μ μΌλ‘ μ»μ μ μκ² λμμ€λλ€. μ΄λ² κΈμμλ μννΈλ§₯μ€ ν¨μμ κ°λ
, μμ, νΉμ§, μ¬μ© μμΉ λ±μ μκ°μ μΌλ‘ μ 리ν΄λ³΄κ² μ΅λλ€.
π λͺ©μ°¨
1. μννΈλ§₯μ€ ν¨μλ?
μννΈλ§₯μ€ ν¨μ(Softmax Function)λ μ£Όμ΄μ§ μ€μ 벑ν°λ₯Ό νλ₯ λΆν¬λ‘ λ°κΎΈμ΄μ£Όλ ν¨μμ
λλ€. μΆλ ₯ κ²°κ³Όλ 0~1 μ¬μ΄μ κ°μ΄λ©°, μ΄ν©μ΄ 1μ΄ λλλ‘ μ κ·νλ©λλ€.
μ΄λ¬ν νΉμ± λλΆμ λ€μ€ ν΄λμ€ λΆλ₯(multi-class classification) λ¬Έμ μμ κ° ν΄λμ€κ° μ λ΅μΌ νλ₯ μ νννλ λ° λ§€μ° μ ν©ν©λλ€.
2. μννΈλ§₯μ€ μμκ³Ό κ³μ° μ리
μννΈλ§₯μ€ ν¨μμ μμμ λ€μκ³Ό κ°μ΅λλ€:
softmax(xi) = exp(xi) / Σ exp(xj)
μ¦, κ° μ
λ ₯κ° xi
λ₯Ό μ§μ ν¨μ(exp)λ₯Ό μ μ©ν λ€, μ 체 κ°μ ν©μΌλ‘ λλμ΄ μ κ·νλ νλ₯ κ°μ λ§λλλ€.
μμλ‘ [2.0, 1.0, 0.1]μ΄λΌλ λ‘μ§(logit)μ΄ μμ λ, μννΈλ§₯μ€λ₯Ό μ μ©νλ©΄ μ½ [0.71, 0.21, 0.08]λ‘ λ³νλ©λλ€. κ°μ₯ ν° κ°μ΄ κ°μ₯ λμ νλ₯ λ‘ λ³νλλ κ²μ΄ νΉμ§μ λλ€.
3. μννΈλ§₯μ€μ νΉμ§
- νλ₯ λΆν¬λ₯Ό λ§λ λ€: μΆλ ₯κ° μ΄ν©μ΄ 1μ΄ λλ©°, κ° ν΄λμ€μ λν νλ₯ ν΄μμ΄ κ°λ₯
- μΆλ ₯μ΄ λ―Όκ°νλ€: λ‘μ§ μ°¨μ΄κ° ν΄μλ‘ νλ₯ μ°¨μ΄λ κ·Ήμ μΌλ‘ λ²μ΄μ§
- μ§μ ν¨μ μ¬μ©: κ°μ μ°¨μ΄λ₯Ό κ°μ‘°νμ¬ ν° κ°μ λ ν° κ°μ€μΉλ₯Ό λΆμ¬
4. μΈμ , μ΄λμ μ¬μ©λλκ°?
μννΈλ§₯μ€ ν¨μλ μ£Όλ‘ λ€μ€ ν΄λμ€ λΆλ₯ λ¬Έμ μ μΆλ ₯μΈ΅μ μ¬μ©λ©λλ€. μλ₯Ό λ€μ΄ μ΄λ―Έμ§κ° μ΄λ€ λλ¬ΌμΈμ§(κ³ μμ΄/κ°/ν λΌ μ€ νλ)λ₯Ό λΆλ₯νλ λ¬Έμ μμ κ° ν΄λμ€κ° μ λ΅μΌ νλ₯ μ κ³μ°ν©λλ€.
λν μΆλ ₯μ΄ νλ₯ λΆν¬μ΄κΈ° λλ¬Έμ ν¬λ‘μ€ μνΈλ‘νΌ μμ€ ν¨μμ ν¨κ» μμ£Ό μ¬μ©λ©λλ€. μ΄ μ‘°ν©μ λΆλ₯ λ¬Έμ μμ κ°μ₯ λ리 μ°μ΄λ μ‘°ν©μ λλ€.
5. λ§λ¬΄λ¦¬ μμ½
μννΈλ§₯μ€ ν¨μλ λ₯λ¬λ λΆλ₯ λͺ¨λΈμ μΆλ ₯κ°μ νλ₯ λ‘ λ³νν΄μ£Όλ νμ ν¨μμ
λλ€. μμμ κ°λ¨νμ§λ§ κΈ°λ₯μ κ°λ ₯νλ©°, μΆλ ₯ ν΄λμ€μ λν μ§κ΄μ μΈ νλ₯ ν΄μμ΄ κ°λ₯ν΄μ§λλ€.
ν¬λ‘μ€ μνΈλ‘νΌ μμ€ ν¨μμ ν¨κ» μ¬μ©λλ©°, λ€μ€ ν΄λμ€ λΆλ₯μμ μ λ΅ μμΈ‘μ νλ₯ μ μΌλ‘ νννλ ν΅μ¬ λꡬμ
λλ€.
λ₯λ¬λμ 곡λΆνλ λͺ¨λ μ΄λ€μ΄ κΌ μ΄ν΄νκ³ μμ΄μΌ ν μ€μν κ°λ
μ
λλ€!