๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ
IT/AI, ๋”ฅ๋Ÿฌ๋‹

AI ์ดˆ๋ณด์ž๋ฅผ ์œ„ํ•œ ๊ฐ•ํ™”ํ•™์Šต(Reinforcement Learning) ์™„์ „ ์ •๋ณต

by ๐Ÿ”ฅ๊นก ๋‹ค ๊ณ ! 2025. 3. 21.

๐Ÿ“š ๋ชฉ์ฐจ


1. ๊ฐ•ํ™”ํ•™์Šต์ด๋ž€ ๋ฌด์—‡์ธ๊ฐ€?

1-1. ๊ฐ•ํ™”ํ•™์Šต์˜ ์ •์˜

๊ฐ•ํ™”ํ•™์Šต(๊ฐ•ํ™”ํ•™์Šต, Reinforcement Learning)์€ ์ธ๊ณต์ง€๋Šฅ ๋ถ„์•ผ์—์„œ ํ•˜๋‚˜์˜ ์—์ด์ „ํŠธ(Agent)๊ฐ€ ํ™˜๊ฒฝ(Environment)๊ณผ ์ƒํ˜ธ์ž‘์šฉํ•˜๋ฉด์„œ ์ตœ์ ์˜ ํ–‰๋™(Policy)์„ ํ•™์Šตํ•ด ๋‚˜๊ฐ€๋Š” ๊ณผ์ •์ž…๋‹ˆ๋‹ค. ๋ชฉํ‘œ๋Š” ๋ณด์ƒ์„ ์ตœ๋Œ€ํ™”ํ•˜๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ์˜์‚ฌ๊ฒฐ์ •์„ ํ•™์Šตํ•˜๋Š” ๊ฒƒ์œผ๋กœ, ์‹œํ–‰์ฐฉ์˜ค(trial and error)๋ฅผ ํ†ตํ•ด ๋ฐฐ์šฐ๋Š” ๋Šฅ๋™์ ์ธ ํ•™์Šต ๋ฐฉ์‹์ด๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

1-2. ๋‹ค๋ฅธ ํ•™์Šต ๋ฐฉ์‹๊ณผ์˜ ์ฐจ์ด์ 

์ง€๋„ํ•™์Šต์€ ์ •๋‹ต(๋ ˆ์ด๋ธ”)์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•™์Šตํ•˜๊ณ , ๋น„์ง€๋„ํ•™์Šต์€ ์ •๋‹ต ์—†์ด ํŒจํ„ด์„ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด ๊ฐ•ํ™”ํ•™์Šต์€ ์ •๋‹ต ์ž์ฒด๊ฐ€ ์—†๊ณ , ๋ณด์ƒ์ด๋ผ๋Š” ํ”ผ๋“œ๋ฐฑ์„ ํ†ตํ•ด ์˜ฌ๋ฐ”๋ฅธ ํ–‰๋™์„ ์œ ๋„ํ•ฉ๋‹ˆ๋‹ค. ์ฆ‰, ์ •๋‹ต์„ ์ง์ ‘ ์•Œ๋ ค์ฃผ์ง€ ์•Š๊ณ  ๋ณด์ƒ๋งŒ ์•Œ๋ ค์ฃผ๋Š” ๊ฒƒ์ด์ฃ . ์ด๋กœ ์ธํ•ด ๊ฐ•ํ™”ํ•™์Šต์€ ๋กœ๋ด‡ ์ œ์–ด, ๊ฒŒ์ž„ ํ”Œ๋ ˆ์ด, ์ž์œจ์ฃผํ–‰ ๋“ฑ ๋‹ค์–‘ํ•œ ๋ถ„์•ผ์— ํ™œ์šฉ๋ฉ๋‹ˆ๋‹ค.


2. ๊ฐ•ํ™”ํ•™์Šต์˜ ํ•ต์‹ฌ ๊ฐœ๋…

2-1. ์—์ด์ „ํŠธ์™€ ํ™˜๊ฒฝ

์—์ด์ „ํŠธ(Agent)๋Š” ํ•™์Šต์„ ์ˆ˜ํ–‰ํ•˜๋Š” ์ฃผ์ฒด์ด๊ณ , ํ™˜๊ฒฝ(Environment)์€ ์—์ด์ „ํŠธ๊ฐ€ ํ–‰๋™์„ ์ทจํ•˜๊ณ  ๋ณด์ƒ์„ ๋ฐ›๋Š” ๋Œ€์ƒ์ž…๋‹ˆ๋‹ค. ์—์ด์ „ํŠธ๋Š” ํ™˜๊ฒฝ์œผ๋กœ๋ถ€ํ„ฐ ์ƒํƒœ(State)๋ฅผ ๋ฐ›๊ณ , ํ–‰๋™(Action)์„ ์„ ํƒํ•˜๋ฉฐ, ์ด์— ๋”ฐ๋ผ ๋ณด์ƒ(Reward)๊ณผ ๋‹ค์Œ ์ƒํƒœ๊ฐ€ ์ฃผ์–ด์ง‘๋‹ˆ๋‹ค.

2-2. ๋ณด์ƒ ํ•จ์ˆ˜์™€ ์ •์ฑ…

๋ณด์ƒ ํ•จ์ˆ˜๋Š” ์—์ด์ „ํŠธ๊ฐ€ ์ˆ˜ํ–‰ํ•œ ํ–‰๋™์— ๋Œ€ํ•ด ์–ผ๋งˆ๋‚˜ ์ž˜ํ–ˆ๋Š”์ง€๋ฅผ ์ˆ˜์น˜๋กœ ํ‘œํ˜„ํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ •์ฑ…(Policy)์€ ์–ด๋–ค ์ƒํƒœ์—์„œ ์–ด๋–ค ํ–‰๋™์„ ์ทจํ• ์ง€ ๊ฒฐ์ •ํ•˜๋Š” ์ „๋žต์ด๋ฉฐ, ์—์ด์ „ํŠธ๋Š” ์ด ์ •์ฑ…์„ ๊ฐœ์„ ํ•ด ๋‚˜๊ฐ€๋ฉฐ ์ ์  ๋” ๋‚˜์€ ๊ฒฐ์ •์„ ๋‚ด๋ฆด ์ˆ˜ ์žˆ๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

2-3. ํƒํ—˜๊ณผ ํ™œ์šฉ (Exploration vs Exploitation)

๊ฐ•ํ™”ํ•™์Šต์˜ ํ•ต์‹ฌ ๋ฌธ์ œ ์ค‘ ํ•˜๋‚˜๋Š” ํƒํ—˜๊ณผ ํ™œ์šฉ์˜ ๊ท ํ˜•์ž…๋‹ˆ๋‹ค. ์ด๋ฏธ ์•Œ๊ณ  ์žˆ๋Š” ์ข‹์€ ํ–‰๋™์„ ๋ฐ˜๋ณตํ•  ๊ฒƒ์ธ๊ฐ€(ํ™œ์šฉ), ์•„๋‹ˆ๋ฉด ์ƒˆ๋กœ์šด ํ–‰๋™์„ ์‹œ๋„ํ•ด ๋ณผ ๊ฒƒ์ธ๊ฐ€(ํƒํ—˜)? ์ด ๊ท ํ˜•์„ ์ž˜ ๋งž์ถ”๋Š” ๊ฒƒ์ด ์„ฑ๋Šฅ ํ–ฅ์ƒ์— ๊ฒฐ์ •์ ์ธ ์š”์†Œ๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.


3. ๊ฐ•ํ™”ํ•™์Šต ์•Œ๊ณ ๋ฆฌ์ฆ˜ ์ข…๋ฅ˜

3-1. Q-Learning

Q-Learning์€ ๋Œ€ํ‘œ์ ์ธ ๊ฐ’ ๊ธฐ๋ฐ˜(value-based) ๊ฐ•ํ™”ํ•™์Šต ์•Œ๊ณ ๋ฆฌ์ฆ˜์ž…๋‹ˆ๋‹ค. ๊ฐ ์ƒํƒœ-ํ–‰๋™ ์Œ์— ๋Œ€ํ•œ Q ๊ฐ’์„ ๊ฐฑ์‹ ํ•˜๋ฉฐ ์ตœ์ ์˜ ์ •์ฑ…์„ ์ฐพ์•„๊ฐ‘๋‹ˆ๋‹ค. ํŠนํžˆ ์˜คํ”„ํด๋ฆฌ์‹œ ๋ฐฉ์‹์œผ๋กœ ๋™์ž‘ํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์•ˆ์ •์ ์ธ ํ•™์Šต์ด ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.

3-2. SARSA

SARSA๋Š” Q-Learning๊ณผ ์œ ์‚ฌํ•˜์ง€๋งŒ, ์‹ค์ œ๋กœ ์„ ํƒํ•œ ํ–‰๋™์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•™์Šต์ด ์ง„ํ–‰๋ฉ๋‹ˆ๋‹ค. ์˜จํด๋ฆฌ์‹œ ๋ฐฉ์‹์œผ๋กœ ํ™˜๊ฒฝ๊ณผ์˜ ์—ฐ์†์ ์ธ ์ƒํ˜ธ์ž‘์šฉ์ด ๋ฐ˜์˜๋˜๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค.

3-3. DQN (Deep Q-Network)

๋”ฅ๋Ÿฌ๋‹์„ ๊ฐ•ํ™”ํ•™์Šต์— ์ ‘๋ชฉํ•œ ์•Œ๊ณ ๋ฆฌ์ฆ˜์œผ๋กœ, DQN์€ Q ํ…Œ์ด๋ธ” ๋Œ€์‹  ์‹ ๊ฒฝ๋ง์„ ์ด์šฉํ•ด Q ๊ฐ’์„ ๊ทผ์‚ฌํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ๊ณ ์ฐจ์› ํ™˜๊ฒฝ์—์„œ๋„ ๊ฐ•ํ™”ํ•™์Šต์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ๋งŒ๋“  ํ˜์‹ ์ ์ธ ๋ฐฉ์‹์œผ๋กœ, ์•ŒํŒŒ๊ณ ์˜ ๊ธฐ๋ฐ˜์ด ๋˜๊ธฐ๋„ ํ–ˆ์Šต๋‹ˆ๋‹ค.

3-4. ์ •์ฑ… ๊ธฐ๋ฐ˜: REINFORCE, Actor-Critic

์ •์ฑ… ๊ธฐ๋ฐ˜(policy-based) ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ์ •์ฑ…์„ ์ง์ ‘ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค. ๋Œ€ํ‘œ์ ์ธ ์•Œ๊ณ ๋ฆฌ์ฆ˜์œผ๋กœ๋Š” REINFORCE์™€ Actor-Critic ๊ตฌ์กฐ๊ฐ€ ์žˆ์œผ๋ฉฐ, ํŠนํžˆ ๋ณต์žกํ•œ ํ–‰๋™ ๊ณต๊ฐ„์„ ๋‹ค๋ฃฐ ์ˆ˜ ์žˆ๋‹ค๋Š” ์žฅ์ ์ด ์žˆ์Šต๋‹ˆ๋‹ค.


4. ๊ฐ•ํ™”ํ•™์Šต์˜ ํ™œ์šฉ ์‚ฌ๋ก€

4-1. ๊ฒŒ์ž„๊ณผ ์‹œ๋ฎฌ๋ ˆ์ด์…˜

์•ŒํŒŒ๊ณ , OpenAI Five, AlphaStar ๋“ฑ ๊ฒŒ์ž„ AI๋Š” ๊ฐ•ํ™”ํ•™์Šต์˜ ๋Œ€ํ‘œ์ ์ธ ์„ฑ๊ณผ์ž…๋‹ˆ๋‹ค. ๋ณต์žกํ•œ ๊ทœ์น™๊ณผ ์ „๋žต์„ ์Šค์Šค๋กœ ํ•™์Šตํ•˜๋ฉฐ ์‚ฌ๋žŒ์„ ๋Šฅ๊ฐ€ํ•˜๋Š” ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ฃผ๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

4-2. ๋กœ๋ณดํ‹ฑ์Šค ๋ฐ ์ž์œจ์ฃผํ–‰

๋กœ๋ด‡์ด ๊ฑท๋Š” ๋ฒ•, ๋ฌผ๊ฑด์„ ์ง‘๋Š” ๋ฐฉ๋ฒ•, ๊ฒฝ๋กœ๋ฅผ ํƒ์ƒ‰ํ•˜๋Š” ๋“ฑ์˜ ๋ฌธ์ œ์—๋„ ๊ฐ•ํ™”ํ•™์Šต์ด ์ ์šฉ๋ฉ๋‹ˆ๋‹ค. ํŠนํžˆ ์‹œ๋ฎฌ๋ ˆ์ด์…˜์—์„œ ํ•™์Šตํ•œ ์ •์ฑ…์„ ์‹ค์ œ ๋กœ๋ด‡์— ์ ์šฉํ•˜๋Š” ๊ธฐ์ˆ ์€ ํ˜„์žฌ ํ™œ๋ฐœํ•œ ์—ฐ๊ตฌ ์ฃผ์ œ์ž…๋‹ˆ๋‹ค.

4-3. ๊ธˆ์œต, ๋ฌผ๋ฅ˜, ๋งˆ์ผ€ํŒ… ์ž๋™ํ™”

ํฌํŠธํด๋ฆฌ์˜ค ๊ด€๋ฆฌ, ์‹ค์‹œ๊ฐ„ ๊ฐ€๊ฒฉ ์ตœ์ ํ™”, ๊ด‘๊ณ  ๋…ธ์ถœ ์กฐ์ • ๋“ฑ์—์„œ๋„ ๊ฐ•ํ™”ํ•™์Šต์€ ์ ์  ๋” ํ™œ๋ฐœํžˆ ๋„์ž…๋˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ๋ณด์ƒ์„ ๊ทน๋Œ€ํ™”ํ•œ๋‹ค๋Š” ๊ฐœ๋…์ด ๋น„์ฆˆ๋‹ˆ์Šค์™€๋„ ์ž˜ ๋งž๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค.


5. ๋งˆ๋ฌด๋ฆฌ ๋ฐ ์š”์•ฝ

๊ฐ•ํ™”ํ•™์Šต์€ ์ธ๊ณต์ง€๋Šฅ์ด ํ™˜๊ฒฝ์„ ๊ฒฝํ—˜ํ•˜๋ฉฐ ์Šค์Šค๋กœ ๋ฐฐ์šฐ๋Š” ๊ฐ€์žฅ ์ธ๊ฐ„๋‹ค์šด ํ•™์Šต ๋ฐฉ์‹ ์ค‘ ํ•˜๋‚˜์ž…๋‹ˆ๋‹ค. ์‹œํ–‰์ฐฉ์˜ค๋ฅผ ํ†ตํ•œ ํ•™์Šต, ๋ณด์ƒ ๊ธฐ๋ฐ˜ ์˜์‚ฌ๊ฒฐ์ •, ๊ทธ๋ฆฌ๊ณ  ์‹ค์ œ ๋ฌธ์ œ ํ•ด๊ฒฐ์—์˜ ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ ๋“ฑ์€ ๊ฐ•ํ™”ํ•™์Šต์„ ๋ฏธ๋ž˜ AI์˜ ํ•ต์‹ฌ ๊ธฐ์ˆ ๋กœ ๋งŒ๋“ญ๋‹ˆ๋‹ค. ๋ณต์žกํ•˜์ง€๋งŒ ๋งค๋ ฅ์ ์ธ ๋ถ„์•ผ, ๋ฐ”๋กœ ๊ฐ•ํ™”ํ•™์Šต์ž…๋‹ˆ๋‹ค.