๐ ๋ชฉ์ฐจ
1. ๊ฐํํ์ต์ด๋ ๋ฌด์์ธ๊ฐ?
1-1. ๊ฐํํ์ต์ ์ ์
๊ฐํํ์ต(๊ฐํํ์ต, Reinforcement Learning)์ ์ธ๊ณต์ง๋ฅ ๋ถ์ผ์์ ํ๋์ ์์ด์ ํธ(Agent)๊ฐ ํ๊ฒฝ(Environment)๊ณผ ์ํธ์์ฉํ๋ฉด์ ์ต์ ์ ํ๋(Policy)์ ํ์ตํด ๋๊ฐ๋ ๊ณผ์ ์ ๋๋ค. ๋ชฉํ๋ ๋ณด์์ ์ต๋ํํ๋ ๋ฐฉํฅ์ผ๋ก ์์ฌ๊ฒฐ์ ์ ํ์ตํ๋ ๊ฒ์ผ๋ก, ์ํ์ฐฉ์ค(trial and error)๋ฅผ ํตํด ๋ฐฐ์ฐ๋ ๋ฅ๋์ ์ธ ํ์ต ๋ฐฉ์์ด๋ผ๊ณ ํ ์ ์์ต๋๋ค.
1-2. ๋ค๋ฅธ ํ์ต ๋ฐฉ์๊ณผ์ ์ฐจ์ด์
์ง๋ํ์ต์ ์ ๋ต(๋ ์ด๋ธ)์ ๊ธฐ๋ฐ์ผ๋ก ํ์ตํ๊ณ , ๋น์ง๋ํ์ต์ ์ ๋ต ์์ด ํจํด์ ํ์ตํฉ๋๋ค. ๋ฐ๋ฉด ๊ฐํํ์ต์ ์ ๋ต ์์ฒด๊ฐ ์๊ณ , ๋ณด์์ด๋ผ๋ ํผ๋๋ฐฑ์ ํตํด ์ฌ๋ฐ๋ฅธ ํ๋์ ์ ๋ํฉ๋๋ค. ์ฆ, ์ ๋ต์ ์ง์ ์๋ ค์ฃผ์ง ์๊ณ ๋ณด์๋ง ์๋ ค์ฃผ๋ ๊ฒ์ด์ฃ . ์ด๋ก ์ธํด ๊ฐํํ์ต์ ๋ก๋ด ์ ์ด, ๊ฒ์ ํ๋ ์ด, ์์จ์ฃผํ ๋ฑ ๋ค์ํ ๋ถ์ผ์ ํ์ฉ๋ฉ๋๋ค.
2. ๊ฐํํ์ต์ ํต์ฌ ๊ฐ๋
2-1. ์์ด์ ํธ์ ํ๊ฒฝ
์์ด์ ํธ(Agent)๋ ํ์ต์ ์ํํ๋ ์ฃผ์ฒด์ด๊ณ , ํ๊ฒฝ(Environment)์ ์์ด์ ํธ๊ฐ ํ๋์ ์ทจํ๊ณ ๋ณด์์ ๋ฐ๋ ๋์์ ๋๋ค. ์์ด์ ํธ๋ ํ๊ฒฝ์ผ๋ก๋ถํฐ ์ํ(State)๋ฅผ ๋ฐ๊ณ , ํ๋(Action)์ ์ ํํ๋ฉฐ, ์ด์ ๋ฐ๋ผ ๋ณด์(Reward)๊ณผ ๋ค์ ์ํ๊ฐ ์ฃผ์ด์ง๋๋ค.
2-2. ๋ณด์ ํจ์์ ์ ์ฑ
๋ณด์ ํจ์๋ ์์ด์ ํธ๊ฐ ์ํํ ํ๋์ ๋ํด ์ผ๋ง๋ ์ํ๋์ง๋ฅผ ์์น๋ก ํํํ ๊ฒ์ ๋๋ค. ์ ์ฑ (Policy)์ ์ด๋ค ์ํ์์ ์ด๋ค ํ๋์ ์ทจํ ์ง ๊ฒฐ์ ํ๋ ์ ๋ต์ด๋ฉฐ, ์์ด์ ํธ๋ ์ด ์ ์ฑ ์ ๊ฐ์ ํด ๋๊ฐ๋ฉฐ ์ ์ ๋ ๋์ ๊ฒฐ์ ์ ๋ด๋ฆด ์ ์๊ฒ ๋ฉ๋๋ค.
2-3. ํํ๊ณผ ํ์ฉ (Exploration vs Exploitation)
๊ฐํํ์ต์ ํต์ฌ ๋ฌธ์ ์ค ํ๋๋ ํํ๊ณผ ํ์ฉ์ ๊ท ํ์ ๋๋ค. ์ด๋ฏธ ์๊ณ ์๋ ์ข์ ํ๋์ ๋ฐ๋ณตํ ๊ฒ์ธ๊ฐ(ํ์ฉ), ์๋๋ฉด ์๋ก์ด ํ๋์ ์๋ํด ๋ณผ ๊ฒ์ธ๊ฐ(ํํ)? ์ด ๊ท ํ์ ์ ๋ง์ถ๋ ๊ฒ์ด ์ฑ๋ฅ ํฅ์์ ๊ฒฐ์ ์ ์ธ ์์๊ฐ ๋ฉ๋๋ค.
3. ๊ฐํํ์ต ์๊ณ ๋ฆฌ์ฆ ์ข ๋ฅ
3-1. Q-Learning
Q-Learning์ ๋ํ์ ์ธ ๊ฐ ๊ธฐ๋ฐ(value-based) ๊ฐํํ์ต ์๊ณ ๋ฆฌ์ฆ์ ๋๋ค. ๊ฐ ์ํ-ํ๋ ์์ ๋ํ Q ๊ฐ์ ๊ฐฑ์ ํ๋ฉฐ ์ต์ ์ ์ ์ฑ ์ ์ฐพ์๊ฐ๋๋ค. ํนํ ์คํํด๋ฆฌ์ ๋ฐฉ์์ผ๋ก ๋์ํ๊ธฐ ๋๋ฌธ์ ์์ ์ ์ธ ํ์ต์ด ๊ฐ๋ฅํฉ๋๋ค.
3-2. SARSA
SARSA๋ Q-Learning๊ณผ ์ ์ฌํ์ง๋ง, ์ค์ ๋ก ์ ํํ ํ๋์ ๊ธฐ๋ฐ์ผ๋ก ํ์ต์ด ์งํ๋ฉ๋๋ค. ์จํด๋ฆฌ์ ๋ฐฉ์์ผ๋ก ํ๊ฒฝ๊ณผ์ ์ฐ์์ ์ธ ์ํธ์์ฉ์ด ๋ฐ์๋๋ ๋ฐฉ์์ ๋๋ค.
3-3. DQN (Deep Q-Network)
๋ฅ๋ฌ๋์ ๊ฐํํ์ต์ ์ ๋ชฉํ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก, DQN์ Q ํ ์ด๋ธ ๋์ ์ ๊ฒฝ๋ง์ ์ด์ฉํด Q ๊ฐ์ ๊ทผ์ฌํฉ๋๋ค. ์ด๋ ๊ณ ์ฐจ์ ํ๊ฒฝ์์๋ ๊ฐํํ์ต์ ๊ฐ๋ฅํ๊ฒ ๋ง๋ ํ์ ์ ์ธ ๋ฐฉ์์ผ๋ก, ์ํ๊ณ ์ ๊ธฐ๋ฐ์ด ๋๊ธฐ๋ ํ์ต๋๋ค.
3-4. ์ ์ฑ ๊ธฐ๋ฐ: REINFORCE, Actor-Critic
์ ์ฑ ๊ธฐ๋ฐ(policy-based) ์๊ณ ๋ฆฌ์ฆ์ ์ ์ฑ ์ ์ง์ ํ์ตํฉ๋๋ค. ๋ํ์ ์ธ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก๋ REINFORCE์ Actor-Critic ๊ตฌ์กฐ๊ฐ ์์ผ๋ฉฐ, ํนํ ๋ณต์กํ ํ๋ ๊ณต๊ฐ์ ๋ค๋ฃฐ ์ ์๋ค๋ ์ฅ์ ์ด ์์ต๋๋ค.
4. ๊ฐํํ์ต์ ํ์ฉ ์ฌ๋ก
4-1. ๊ฒ์๊ณผ ์๋ฎฌ๋ ์ด์
์ํ๊ณ , OpenAI Five, AlphaStar ๋ฑ ๊ฒ์ AI๋ ๊ฐํํ์ต์ ๋ํ์ ์ธ ์ฑ๊ณผ์ ๋๋ค. ๋ณต์กํ ๊ท์น๊ณผ ์ ๋ต์ ์ค์ค๋ก ํ์ตํ๋ฉฐ ์ฌ๋์ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๊ณ ์์ต๋๋ค.
4-2. ๋ก๋ณดํฑ์ค ๋ฐ ์์จ์ฃผํ
๋ก๋ด์ด ๊ฑท๋ ๋ฒ, ๋ฌผ๊ฑด์ ์ง๋ ๋ฐฉ๋ฒ, ๊ฒฝ๋ก๋ฅผ ํ์ํ๋ ๋ฑ์ ๋ฌธ์ ์๋ ๊ฐํํ์ต์ด ์ ์ฉ๋ฉ๋๋ค. ํนํ ์๋ฎฌ๋ ์ด์ ์์ ํ์ตํ ์ ์ฑ ์ ์ค์ ๋ก๋ด์ ์ ์ฉํ๋ ๊ธฐ์ ์ ํ์ฌ ํ๋ฐํ ์ฐ๊ตฌ ์ฃผ์ ์ ๋๋ค.
4-3. ๊ธ์ต, ๋ฌผ๋ฅ, ๋ง์ผํ ์๋ํ
ํฌํธํด๋ฆฌ์ค ๊ด๋ฆฌ, ์ค์๊ฐ ๊ฐ๊ฒฉ ์ต์ ํ, ๊ด๊ณ ๋ ธ์ถ ์กฐ์ ๋ฑ์์๋ ๊ฐํํ์ต์ ์ ์ ๋ ํ๋ฐํ ๋์ ๋๊ณ ์์ต๋๋ค. ๋ณด์์ ๊ทน๋ํํ๋ค๋ ๊ฐ๋ ์ด ๋น์ฆ๋์ค์๋ ์ ๋ง๊ธฐ ๋๋ฌธ์ ๋๋ค.
5. ๋ง๋ฌด๋ฆฌ ๋ฐ ์์ฝ
๊ฐํํ์ต์ ์ธ๊ณต์ง๋ฅ์ด ํ๊ฒฝ์ ๊ฒฝํํ๋ฉฐ ์ค์ค๋ก ๋ฐฐ์ฐ๋ ๊ฐ์ฅ ์ธ๊ฐ๋ค์ด ํ์ต ๋ฐฉ์ ์ค ํ๋์ ๋๋ค. ์ํ์ฐฉ์ค๋ฅผ ํตํ ํ์ต, ๋ณด์ ๊ธฐ๋ฐ ์์ฌ๊ฒฐ์ , ๊ทธ๋ฆฌ๊ณ ์ค์ ๋ฌธ์ ํด๊ฒฐ์์ ์ ์ฉ ๊ฐ๋ฅ์ฑ ๋ฑ์ ๊ฐํํ์ต์ ๋ฏธ๋ AI์ ํต์ฌ ๊ธฐ์ ๋ก ๋ง๋ญ๋๋ค. ๋ณต์กํ์ง๋ง ๋งค๋ ฅ์ ์ธ ๋ถ์ผ, ๋ฐ๋ก ๊ฐํํ์ต์ ๋๋ค.