๋ฅ๋ฌ๋์์ ๋ฒ์ฃผํ ๋ฐ์ดํฐ๋ฅผ ์์นํํ๋ ๊ฒ์ ํ์์ ์ธ ์ ์ฒ๋ฆฌ ๊ณผ์ ์
๋๋ค. ๊ทธ ์ค ๊ฐ์ฅ ๊ธฐ๋ณธ์ ์ด๋ฉด์ ๋๋ฆฌ ์ฐ์ด๋ ๋ฐฉ๋ฒ์ด ๋ฐ๋ก One-Hot Encoding(์-ํซ ์ธ์ฝ๋ฉ)์
๋๋ค.
์ด๋ฒ ๊ธ์์๋ ๋ฅ๋ฌ๋์์ ์์ฃผ ์ฌ์ฉ๋๋ One-Hot Vector์ ๊ฐ๋
, ํน์ง, ์ฅ๋จ์ ๊ณผ ์ค์ ์์ ๋ฐ ์ฌ์ฉ๋๋ ๋ถ์ผ๊น์ง ์ ๋ฆฌํด๋ณด๊ฒ ์ต๋๋ค.
๐ ๋ชฉ์ฐจ
1. One-Hot Vector๋?
One-Hot Vector(์-ํซ ๋ฒกํฐ)๋ ๋ฒ์ฃผํ ๋ฐ์ดํฐ๋ฅผ ๋ฒกํฐ๋ก ํํํ๋ ๊ฐ์ฅ ๋จ์ํ ๋ฐฉ์์
๋๋ค.
ํ๋์ ์นดํ
๊ณ ๋ฆฌ๋ฅผ n์ฐจ์์ ๋ฒกํฐ๋ก ๋ณํํ๋ฉฐ, ๊ทธ ์ค ํ๋์ ์ธ๋ฑ์ค๋ง 1์ด๊ณ ๋๋จธ์ง๋ ๋ชจ๋ 0์ผ๋ก ์ค์ ๋ฉ๋๋ค.
์๋ฅผ ๋ค์ด, '๊ณ ์์ด', '๊ฐ์์ง', 'ํ ๋ผ'๋ผ๋ 3๊ฐ์ ํด๋์ค๊ฐ ์๋ค๋ฉด ๋ค์๊ณผ ๊ฐ์ด ํํ๋ฉ๋๋ค:
๊ณ ์์ด → [1, 0, 0]
๊ฐ์์ง → [0, 1, 0]
ํ ๋ผ → [0, 0, 1]
2. ์ ํ์ํ๊ฐ?
๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ์์น ๋ฐ์ดํฐ๋ฅผ ์
๋ ฅ์ผ๋ก ๋ฐ์๋ค์
๋๋ค. ๋ฌธ์์ด์ด๋ ๋ฒ์ฃผํ ๋ณ์๋ ๊ทธ๋๋ก ์ฌ์ฉํ ์ ์๊ธฐ ๋๋ฌธ์, ์ด๋ฅผ ๋ฒกํฐ๋ก ๋ณํํ๋ ์ ์ฒ๋ฆฌ๊ฐ ํ์ํฉ๋๋ค.
One-Hot Encoding์ ๋ฒ์ฃผ ๊ฐ ์์๋ ๊ฑฐ๋ฆฌ ๊ฐ๋
์ด ํ์ ์๋ ๊ฒฝ์ฐ ์ ๋ณด ์๊ณก ์์ด ๋ฐ์ดํฐ๋ฅผ ํํํ๋ ๋ฐ ๋งค์ฐ ์ ํฉํฉ๋๋ค.
3. ์์ : ํ ์คํธ ๋ถ๋ฅ์์์ ์ฌ์ฉ
ํ ์คํธ ๋ถ๋ฅ ๋ชจ๋ธ์์ ๊ฐ ๋จ์ด๋ฅผ ๊ณ ์ ํ ์ธ๋ฑ์ค๋ก ๋งคํํ๊ณ One-Hot Vector๋ก ๋ณํํ์ฌ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉํ ์ ์์ต๋๋ค.
์๋ฅผ ๋ค์ด, ์๋์ ๊ฐ์ ๋จ์ด ์งํฉ์ด ์๋ค๊ณ ๊ฐ์ ํด ๋ด ์๋ค.
๋จ์ด ์งํฉ: ['๋๋', '๊ณ ์์ด', '๋ฅผ', '์ข์ํด']
→ '๊ณ ์์ด' → [0, 1, 0, 0]
์ด ๋ฐฉ์์ ํนํ RNN, LSTM, GRU ๋ฑ ์์ฐจ ๋ชจ๋ธ์ ์ ๋ ฅ์์ ์ฌ์ฉ๋๋ฉฐ, ์์ฆ์ ์๋ฒ ๋ฉ(Embedding)์ผ๋ก ๋์ฒด๋๊ธฐ๋ ํฉ๋๋ค.
4. ์ฅ์ ๊ณผ ๋จ์
โ ์ฅ์
- ๊ฐ๋จํ๊ณ ์ง๊ด์ ์ธ ํํ ๋ฐฉ์
- ์์๋ ๊ฑฐ๋ฆฌ ๊ฐ๋ ์ด ์์ผ๋ฏ๋ก ์ ๋ณด ์๊ณก์ด ์์
- ๋ค์ํ ๋ถ๋ฅ ๋ฌธ์ ์ ์์ฝ๊ฒ ์ ์ฉ ๊ฐ๋ฅ
โ ๋จ์
- ๊ณ ์ฐจ์ ํฌ์ ๋ฒกํฐ๋ก ๋ฉ๋ชจ๋ฆฌ ๋นํจ์จ ๋ฐ์
- ์นดํ ๊ณ ๋ฆฌ๊ฐ ๋ง์์ง์๋ก ์ฐ์ฐ๋ ์ฆ๊ฐ
- ๋ฒ์ฃผ ๊ฐ ์ ์ฌ์ฑ์ ๋ฐ์ํ์ง ๋ชปํจ
5. One-Hot์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๋ ๋ฐฉ๋ฒ
One-Hot Encoding์ ๋จ์ ์ ๋ณด์ํ๊ธฐ ์ํด ๋ค์๊ณผ ๊ฐ์ ๋์์ด ์ฌ์ฉ๋ฉ๋๋ค.
- Word Embedding: ๋จ์ด๋ฅผ ๋ฐ์ง ๋ฒกํฐ(Dense Vector)๋ก ๋ณํ (์: Word2Vec, GloVe)
- Label Encoding: ๋ฒ์ฃผ๋ฅผ ์ ์๋ก ๋ณํ (์์๊ฐ ์๋ฏธ ์๋ ๊ฒฝ์ฐ)
- Embedding Layer: ๋ฅ๋ฌ๋ ๋ชจ๋ธ ๋ด๋ถ์์ ์๋์ผ๋ก ๋ฒกํฐ๋ฅผ ํ์ต
์ต๊ทผ์๋ BERT, GPT ๋ฑ ์ฌ์ ํ์ต ์ธ์ด๋ชจ๋ธ์ด ๋ฑ์ฅํ๋ฉด์, One-Hot๋ณด๋ค ์๋ฒ ๋ฉ ๊ธฐ๋ฐ์ ํํ์ด ๋ ๋๋ฆฌ ์ฌ์ฉ๋๊ณ ์์ต๋๋ค.
6. ๊ฒฐ๋ก
One-Hot Vector๋ ๋ฅ๋ฌ๋์์ ๊ธฐ๋ณธ์ ์ด๊ณ ์ง๊ด์ ์ธ ๋ฒ์ฃผํ ๋ฐ์ดํฐ ํํ ๋ฐฉ๋ฒ์
๋๋ค.
์นดํ
๊ณ ๋ฆฌ ๊ฐ์ ๊ด๊ณ์ฑ์ด ์๊ณ , ๋ฐ์ดํฐ ์๊ฐ ๋ง์ง ์์ ๊ฒฝ์ฐ์๋ ์ฌ์ ํ ์ ์ฉํ๊ฒ ์ฌ์ฉ๋ฉ๋๋ค.
ํ์ง๋ง ํฌ์์ฑ(Sparsity) ๋ฌธ์ ์ ํ์ฅ์ฑ์ ํ๊ณ๋ฅผ ๊ณ ๋ คํ ๋, ์ค์ ๋ชจ๋ธ์์๋ Embedding Layer๋ Pretrained Model ๋ฑ๊ณผ ํจ๊ป ์ฌ์ฉ๋๋ ๊ฒฝ์ฐ๊ฐ ๋ง์ต๋๋ค.