๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ
IT/AI, ๋”ฅ๋Ÿฌ๋‹

๋”ฅ๋Ÿฌ๋‹ ํ…์ŠคํŠธ ์ฒ˜๋ฆฌ์—์„œ One-Hot Vector๋ฅผ ์“ฐ๋Š” ์ด์œ 

by ๐Ÿ”ฅ๊นก ๋‹ค ๊ณ ! 2025. 5. 6.

 

 

๋”ฅ๋Ÿฌ๋‹์—์„œ ๋ฒ”์ฃผํ˜• ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์น˜ํ™”ํ•˜๋Š” ๊ฒƒ์€ ํ•„์ˆ˜์ ์ธ ์ „์ฒ˜๋ฆฌ ๊ณผ์ •์ž…๋‹ˆ๋‹ค. ๊ทธ ์ค‘ ๊ฐ€์žฅ ๊ธฐ๋ณธ์ ์ด๋ฉด์„œ ๋„๋ฆฌ ์“ฐ์ด๋Š” ๋ฐฉ๋ฒ•์ด ๋ฐ”๋กœ One-Hot Encoding(์›-ํ•ซ ์ธ์ฝ”๋”ฉ)์ž…๋‹ˆ๋‹ค.

์ด๋ฒˆ ๊ธ€์—์„œ๋Š” ๋”ฅ๋Ÿฌ๋‹์—์„œ ์ž์ฃผ ์‚ฌ์šฉ๋˜๋Š” One-Hot Vector์˜ ๊ฐœ๋…, ํŠน์ง•, ์žฅ๋‹จ์ ๊ณผ ์‹ค์ œ ์˜ˆ์ œ ๋ฐ ์‚ฌ์šฉ๋˜๋Š” ๋ถ„์•ผ๊นŒ์ง€ ์ •๋ฆฌํ•ด๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค.


1. One-Hot Vector๋ž€?

One-Hot Vector(์›-ํ•ซ ๋ฒกํ„ฐ)๋Š” ๋ฒ”์ฃผํ˜• ๋ฐ์ดํ„ฐ๋ฅผ ๋ฒกํ„ฐ๋กœ ํ‘œํ˜„ํ•˜๋Š” ๊ฐ€์žฅ ๋‹จ์ˆœํ•œ ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค.
ํ•˜๋‚˜์˜ ์นดํ…Œ๊ณ ๋ฆฌ๋ฅผ n์ฐจ์›์˜ ๋ฒกํ„ฐ๋กœ ๋ณ€ํ™˜ํ•˜๋ฉฐ, ๊ทธ ์ค‘ ํ•˜๋‚˜์˜ ์ธ๋ฑ์Šค๋งŒ 1์ด๊ณ  ๋‚˜๋จธ์ง€๋Š” ๋ชจ๋‘ 0์œผ๋กœ ์„ค์ •๋ฉ๋‹ˆ๋‹ค.

์˜ˆ๋ฅผ ๋“ค์–ด, '๊ณ ์–‘์ด', '๊ฐ•์•„์ง€', 'ํ† ๋ผ'๋ผ๋Š” 3๊ฐœ์˜ ํด๋ž˜์Šค๊ฐ€ ์žˆ๋‹ค๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™์ด ํ‘œํ˜„๋ฉ๋‹ˆ๋‹ค:

๊ณ ์–‘์ด → [1, 0, 0]  
๊ฐ•์•„์ง€ → [0, 1, 0]  
ํ† ๋ผ   → [0, 0, 1]

2. ์™œ ํ•„์š”ํ•œ๊ฐ€?

๋”ฅ๋Ÿฌ๋‹ ๋ชจ๋ธ์€ ์ˆ˜์น˜ ๋ฐ์ดํ„ฐ๋ฅผ ์ž…๋ ฅ์œผ๋กœ ๋ฐ›์•„๋“ค์ž…๋‹ˆ๋‹ค. ๋ฌธ์ž์—ด์ด๋‚˜ ๋ฒ”์ฃผํ˜• ๋ณ€์ˆ˜๋Š” ๊ทธ๋Œ€๋กœ ์‚ฌ์šฉํ•  ์ˆ˜ ์—†๊ธฐ ๋•Œ๋ฌธ์—, ์ด๋ฅผ ๋ฒกํ„ฐ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ์ „์ฒ˜๋ฆฌ๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.

One-Hot Encoding์€ ๋ฒ”์ฃผ ๊ฐ„ ์ˆœ์„œ๋‚˜ ๊ฑฐ๋ฆฌ ๊ฐœ๋…์ด ํ•„์š” ์—†๋Š” ๊ฒฝ์šฐ ์ •๋ณด ์™œ๊ณก ์—†์ด ๋ฐ์ดํ„ฐ๋ฅผ ํ‘œํ˜„ํ•˜๋Š” ๋ฐ ๋งค์šฐ ์ ํ•ฉํ•ฉ๋‹ˆ๋‹ค.

3. ์˜ˆ์ œ: ํ…์ŠคํŠธ ๋ถ„๋ฅ˜์—์„œ์˜ ์‚ฌ์šฉ

ํ…์ŠคํŠธ ๋ถ„๋ฅ˜ ๋ชจ๋ธ์—์„œ ๊ฐ ๋‹จ์–ด๋ฅผ ๊ณ ์œ ํ•œ ์ธ๋ฑ์Šค๋กœ ๋งคํ•‘ํ•˜๊ณ  One-Hot Vector๋กœ ๋ณ€ํ™˜ํ•˜์—ฌ ์ž…๋ ฅ์œผ๋กœ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์˜ˆ๋ฅผ ๋“ค์–ด, ์•„๋ž˜์™€ ๊ฐ™์€ ๋‹จ์–ด ์ง‘ํ•ฉ์ด ์žˆ๋‹ค๊ณ  ๊ฐ€์ •ํ•ด ๋ด…์‹œ๋‹ค.

๋‹จ์–ด ์ง‘ํ•ฉ: ['๋‚˜๋Š”', '๊ณ ์–‘์ด', '๋ฅผ', '์ข‹์•„ํ•ด']  
→ '๊ณ ์–‘์ด' → [0, 1, 0, 0]

์ด ๋ฐฉ์‹์€ ํŠนํžˆ RNN, LSTM, GRU ๋“ฑ ์ˆœ์ฐจ ๋ชจ๋ธ์˜ ์ž…๋ ฅ์—์„œ ์‚ฌ์šฉ๋˜๋ฉฐ, ์š”์ฆ˜์€ ์ž„๋ฒ ๋”ฉ(Embedding)์œผ๋กœ ๋Œ€์ฒด๋˜๊ธฐ๋„ ํ•ฉ๋‹ˆ๋‹ค.

4. ์žฅ์ ๊ณผ ๋‹จ์ 

โœ” ์žฅ์ 

  • ๊ฐ„๋‹จํ•˜๊ณ  ์ง๊ด€์ ์ธ ํ‘œํ˜„ ๋ฐฉ์‹
  • ์ˆœ์„œ๋‚˜ ๊ฑฐ๋ฆฌ ๊ฐœ๋…์ด ์—†์œผ๋ฏ€๋กœ ์ •๋ณด ์™œ๊ณก์ด ์—†์Œ
  • ๋‹ค์–‘ํ•œ ๋ถ„๋ฅ˜ ๋ฌธ์ œ์— ์†์‰ฝ๊ฒŒ ์ ์šฉ ๊ฐ€๋Šฅ

โ— ๋‹จ์ 

  • ๊ณ ์ฐจ์› ํฌ์†Œ ๋ฒกํ„ฐ๋กœ ๋ฉ”๋ชจ๋ฆฌ ๋น„ํšจ์œจ ๋ฐœ์ƒ
  • ์นดํ…Œ๊ณ ๋ฆฌ๊ฐ€ ๋งŽ์•„์งˆ์ˆ˜๋ก ์—ฐ์‚ฐ๋Ÿ‰ ์ฆ๊ฐ€
  • ๋ฒ”์ฃผ ๊ฐ„ ์œ ์‚ฌ์„ฑ์„ ๋ฐ˜์˜ํ•˜์ง€ ๋ชปํ•จ

5. One-Hot์˜ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๋Š” ๋ฐฉ๋ฒ•

One-Hot Encoding์˜ ๋‹จ์ ์„ ๋ณด์™„ํ•˜๊ธฐ ์œ„ํ•ด ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๋Œ€์•ˆ์ด ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.

  • Word Embedding: ๋‹จ์–ด๋ฅผ ๋ฐ€์ง‘ ๋ฒกํ„ฐ(Dense Vector)๋กœ ๋ณ€ํ™˜ (์˜ˆ: Word2Vec, GloVe)
  • Label Encoding: ๋ฒ”์ฃผ๋ฅผ ์ •์ˆ˜๋กœ ๋ณ€ํ™˜ (์ˆœ์„œ๊ฐ€ ์˜๋ฏธ ์žˆ๋Š” ๊ฒฝ์šฐ)
  • Embedding Layer: ๋”ฅ๋Ÿฌ๋‹ ๋ชจ๋ธ ๋‚ด๋ถ€์—์„œ ์ž๋™์œผ๋กœ ๋ฒกํ„ฐ๋ฅผ ํ•™์Šต

์ตœ๊ทผ์—๋Š” BERT, GPT ๋“ฑ ์‚ฌ์ „ํ•™์Šต ์–ธ์–ด๋ชจ๋ธ์ด ๋“ฑ์žฅํ•˜๋ฉด์„œ, One-Hot๋ณด๋‹ค ์ž„๋ฒ ๋”ฉ ๊ธฐ๋ฐ˜์˜ ํ‘œํ˜„์ด ๋” ๋„๋ฆฌ ์‚ฌ์šฉ๋˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

6. ๊ฒฐ๋ก 

One-Hot Vector๋Š” ๋”ฅ๋Ÿฌ๋‹์—์„œ ๊ธฐ๋ณธ์ ์ด๊ณ  ์ง๊ด€์ ์ธ ๋ฒ”์ฃผํ˜• ๋ฐ์ดํ„ฐ ํ‘œํ˜„ ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค.

์นดํ…Œ๊ณ ๋ฆฌ ๊ฐ„์˜ ๊ด€๊ณ„์„ฑ์ด ์—†๊ณ , ๋ฐ์ดํ„ฐ ์ˆ˜๊ฐ€ ๋งŽ์ง€ ์•Š์€ ๊ฒฝ์šฐ์—๋Š” ์—ฌ์ „ํžˆ ์œ ์šฉํ•˜๊ฒŒ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.

ํ•˜์ง€๋งŒ ํฌ์†Œ์„ฑ(Sparsity) ๋ฌธ์ œ์™€ ํ™•์žฅ์„ฑ์˜ ํ•œ๊ณ„๋ฅผ ๊ณ ๋ คํ•  ๋•Œ, ์‹ค์ œ ๋ชจ๋ธ์—์„œ๋Š” Embedding Layer๋‚˜ Pretrained Model ๋“ฑ๊ณผ ํ•จ๊ป˜ ์‚ฌ์šฉ๋˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋งŽ์Šต๋‹ˆ๋‹ค.