๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ
์นดํ…Œ๊ณ ๋ฆฌ ์—†์Œ

๋”ฅ๋Ÿฌ๋‹ ๋ชจ๋ฉ˜ํ…€(Momentum) ์™„์ „ ์ •๋ฆฌ - ๊ฐœ๋…, ์›๋ฆฌ, ์ˆ˜์‹, ์‹ค์ „ ์ ์šฉ

by ๐Ÿ”ฅ๊นก ๋‹ค ๊ณ ! 2025. 4. 2.

 

 

๋”ฅ๋Ÿฌ๋‹ ๋ชจ๋ฉ˜ํ…€(Momentum) ์™„์ „ ์ •๋ฆฌ - ๊ฐœ๋…, ์›๋ฆฌ, ์ˆ˜์‹, ์‹ค์ „ ์ ์šฉ

๐Ÿ“š ๋ชฉ์ฐจ

1. ๋ชจ๋ฉ˜ํ…€์ด๋ž€ ๋ฌด์—‡์ธ๊ฐ€? - 1-1. ๊ธฐ๋ณธ ๊ฒฝ์‚ฌํ•˜๊ฐ•๋ฒ•์˜ ํ•œ๊ณ„ - 1-2. ๋ชจ๋ฉ˜ํ…€์˜ ์ •์˜์™€ ๊ฐœ๋… 2. ๋ชจ๋ฉ˜ํ…€์˜ ์ˆ˜์‹๊ณผ ์ž‘๋™ ์›๋ฆฌ - 2-1. ์ˆ˜์‹์œผ๋กœ ์ดํ•ดํ•˜๋Š” ๋ชจ๋ฉ˜ํ…€ - 2-2. ์‹œ๊ฐ์ ์œผ๋กœ ์ดํ•ดํ•˜๊ธฐ 3. ๋ชจ๋ฉ˜ํ…€์˜ ์žฅ์ ๊ณผ ํšจ๊ณผ - 3-1. ์ง„๋™ ๊ฐ์†Œ์™€ ๋น ๋ฅธ ์ˆ˜๋ ด - 3-2. ์‹ค์ œ ์‚ฌ๋ก€์™€ ํšจ๊ณผ ๋ถ„์„ 4. ์‹ค์ „์—์„œ์˜ ๋ชจ๋ฉ˜ํ…€ ํ™œ์šฉ - 4-1. ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ์„ค์ • - 4-2. Nesterov Momentum 5. ์ •๋ฆฌ ๋ฐ ๋งˆ๋ฌด๋ฆฌ

1. ๋ชจ๋ฉ˜ํ…€์ด๋ž€ ๋ฌด์—‡์ธ๊ฐ€?

1-1. ๊ธฐ๋ณธ ๊ฒฝ์‚ฌํ•˜๊ฐ•๋ฒ•์˜ ํ•œ๊ณ„

๋”ฅ๋Ÿฌ๋‹์—์„œ ๊ฐ€์žฅ ๊ธฐ๋ณธ์ ์ธ ํ•™์Šต ๋ฐฉ๋ฒ•์€ ๊ฒฝ์‚ฌํ•˜๊ฐ•๋ฒ•(Gradient Descent)์ž…๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ์ด ๋ฐฉ์‹์€ ์†์‹ค ํ•จ์ˆ˜์˜ ํ˜•ํƒœ๊ฐ€ ๋ณต์žกํ•˜๊ฑฐ๋‚˜ ๊ตด๊ณก์ด ์‹ฌํ•  ๊ฒฝ์šฐ ์ง„๋™ํ•˜๊ฑฐ๋‚˜ ์ˆ˜๋ ด์ด ๋งค์šฐ ๋Š๋ ค์ง€๋Š” ๋ฌธ์ œ๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ์†์‹ค ๊ณก๋ฉด์ด ํ˜‘๊ณก์ฒ˜๋Ÿผ ๊ธธ๊ณ  ์ข์„ ๊ฒฝ์šฐ, ๊ฒฝ์‚ฌํ•˜๊ฐ•๋ฒ•์€ ์ขŒ์šฐ๋กœ ์ง„๋™ํ•˜๋ฉฐ ํšจ์œจ์ ์œผ๋กœ ๋‚ด๋ ค๊ฐ€์ง€ ๋ชปํ•ฉ๋‹ˆ๋‹ค.

1-2. ๋ชจ๋ฉ˜ํ…€์˜ ์ •์˜์™€ ๊ฐœ๋…

์ด๋Ÿฐ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ๋“ฑ์žฅํ•œ ๊ฒƒ์ด ๋ชจ๋ฉ˜ํ…€(Momentum)์ž…๋‹ˆ๋‹ค. ๋ฌผ๋ฆฌํ•™์—์„œ '์šด๋™๋Ÿ‰'์ด๋ผ๋Š” ๊ฐœ๋…์—์„œ ์ฐจ์šฉํ•œ ๊ฒƒ์œผ๋กœ, ์ด์ „์˜ ์ด๋™ ๋ฐฉํ–ฅ์„ ๊ณ ๋ คํ•˜์—ฌ ๊ด€์„ฑ์„ ๊ฐ€์ง„ ์ฑ„๋กœ ๋‹ค์Œ ์œ„์น˜๋ฅผ ์—…๋ฐ์ดํŠธํ•ฉ๋‹ˆ๋‹ค. ์ฆ‰, ์ด์ „์— ํ–ฅํ–ˆ๋˜ ๋ฐฉํ–ฅ์„ ์ผ์ • ๋ถ€๋ถ„ ์œ ์ง€ํ•˜๋ฉฐ ์ƒˆ๋กœ์šด ๊ธฐ์šธ๊ธฐ์™€ ๊ฒฐํ•ฉํ•ด ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์—…๋ฐ์ดํŠธํ•ฉ๋‹ˆ๋‹ค.

 

 

2. ๋ชจ๋ฉ˜ํ…€์˜ ์ˆ˜์‹๊ณผ ์ž‘๋™ ์›๋ฆฌ

2-1. ์ˆ˜์‹์œผ๋กœ ์ดํ•ดํ•˜๋Š” ๋ชจ๋ฉ˜ํ…€

๋ชจ๋ฉ˜ํ…€ ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์ˆ˜์‹์œผ๋กœ ํ‘œํ˜„๋ฉ๋‹ˆ๋‹ค:

v(t) = β * v(t-1) + (1 - β) * ∇L(θ)
θ = θ - α * v(t)
  • v(t): ํ˜„์žฌ ์†๋„ (์ด์ „ ๋ฐฉํ–ฅ + ํ˜„์žฌ ๊ธฐ์šธ๊ธฐ)
  • β: ๋ชจ๋ฉ˜ํ…€ ๊ณ„์ˆ˜, ์ผ๋ฐ˜์ ์œผ๋กœ 0.9 ์‚ฌ์šฉ
  • ∇L(θ): ํ˜„์žฌ ๊ธฐ์šธ๊ธฐ (gradient)
  • α: ํ•™์Šต๋ฅ  (learning rate)

์ด ๋ฐฉ์‹์€ ์ผ์ข…์˜ ๋ˆ„์ ๋œ ์—…๋ฐ์ดํŠธ๋ฅผ ์ด์šฉํ•ด, ๊ธ‰๊ฒฉํ•œ ๋ฐฉํ–ฅ ๋ณ€ํ™” ์—†์ด ์•ˆ์ •์ ์œผ๋กœ ์ˆ˜๋ ดํ•ฉ๋‹ˆ๋‹ค.

2-2. ์‹œ๊ฐ์ ์œผ๋กœ ์ดํ•ดํ•˜๊ธฐ

๋งˆ์น˜ ๊ณต์ด ๊ฒฝ์‚ฌ์ง„ ๋ฉด์„ ๋”ฐ๋ผ ๊ตด๋Ÿฌ ๋‚ด๋ ค๊ฐˆ ๋•Œ, ์ค‘๊ฐ„์— ์ž‘๊ณ  ์–•์€ ๊ตฌ๋ฉ์ด๋ฅผ ์ง€๋‚˜์น˜๋“ฏ์ด, ๋ชจ๋ฉ˜ํ…€์€ ์ด๋Ÿฌํ•œ ์žฅ์• ๋ฌผ์„ ๋„˜๊ธฐ ์‰ฌ์šด ๊ตฌ์กฐ์ž…๋‹ˆ๋‹ค. ๋‹จ์ˆœํ•œ ๊ฒฝ์‚ฌํ•˜๊ฐ•๋ฒ•์ด ‘๋–จ์–ด์ง€๊ณ  ๋ฉˆ์ถ”๊ณ ’๋ฅผ ๋ฐ˜๋ณตํ•œ๋‹ค๋ฉด, ๋ชจ๋ฉ˜ํ…€์€ ‘์†๋„๋ฅผ ๋ถ™์—ฌ ๊พธ์ค€ํžˆ’ ๋‚ด๋ ค๊ฐ‘๋‹ˆ๋‹ค.

 

 

3. ๋ชจ๋ฉ˜ํ…€์˜ ์žฅ์ ๊ณผ ํšจ๊ณผ

3-1. ์ง„๋™ ๊ฐ์†Œ์™€ ๋น ๋ฅธ ์ˆ˜๋ ด

๋ชจ๋ฉ˜ํ…€์„ ์ ์šฉํ•˜๋ฉด ๋ชจ๋ธ์ด ์ง„๋™ ์—†์ด ์•ˆ์ •์ ์œผ๋กœ ์ˆ˜๋ ดํ•ฉ๋‹ˆ๋‹ค. ํŠนํžˆ, ์†์‹ค ๊ณก๋ฉด์ด ์ขŒ์šฐ๋กœ ๊ธ‰๊ฒฉํžˆ ํ”๋“ค๋ฆฌ๋Š” ๊ตฌ๊ฐ„์—์„œ๋Š” ์ง„๋™์„ ์ค„์—ฌ์ฃผ๊ณ  ์ˆ˜๋ ด ์†๋„๋ฅผ ํฌ๊ฒŒ ๋†’์ž…๋‹ˆ๋‹ค. ์ด๋Š” ํ•™์Šต ์ดˆ๊ธฐ์— ๋งค์šฐ ์œ ๋ฆฌํ•˜๊ฒŒ ์ž‘์šฉํ•˜๋ฉฐ, ์ž์ฃผ ์‚ฌ์šฉํ•˜๋Š” ์ด์œ  ์ค‘ ํ•˜๋‚˜์ž…๋‹ˆ๋‹ค.

3-2. ์‹ค์ œ ์‚ฌ๋ก€์™€ ํšจ๊ณผ ๋ถ„์„

SGD๋งŒ ์‚ฌ์šฉํ•œ ๊ฒฝ์šฐ๋ณด๋‹ค SGD + Momentum ์กฐํ•ฉ์ด ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ๋ณด์ด๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋งŽ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์ด๋ฏธ์ง€ ๋ถ„๋ฅ˜๋‚˜ ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ ๋ชจ๋ธ์—์„œ ์ดˆ๊ธฐ ์†์‹ค ๊ฐ์†Œ ์†๋„์™€ ์ตœ์ข… ์ •ํ™•๋„ ๋ชจ๋‘์—์„œ ์ฐจ์ด๋ฅผ ๋ณด์ž…๋‹ˆ๋‹ค.

 

 

4. ์‹ค์ „์—์„œ์˜ ๋ชจ๋ฉ˜ํ…€ ํ™œ์šฉ

4-1. ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ์„ค์ •

๋ชจ๋ฉ˜ํ…€์„ ์‚ฌ์šฉํ•  ๋•Œ๋Š” ์ผ๋ฐ˜์ ์œผ๋กœ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์„ค์ •์„ ์ถ”์ฒœํ•ฉ๋‹ˆ๋‹ค:

  • β (๋ชจ๋ฉ˜ํ…€ ๊ณ„์ˆ˜): 0.9 ~ 0.99
  • ํ•™์Šต๋ฅ  (learning rate): 0.01 ๋˜๋Š” 0.001

๋„ˆ๋ฌด ํฐ β๋Š” ๋ฐœ์‚ฐ ๊ฐ€๋Šฅ์„ฑ์ด ์žˆ์œผ๋‹ˆ ์‹คํ—˜์ ์œผ๋กœ ์กฐ์ •ํ•˜๋Š” ๊ฒƒ์ด ์ข‹์Šต๋‹ˆ๋‹ค.

4-2. Nesterov Momentum

๋ชจ๋ฉ˜ํ…€์˜ ๊ฐœ์„ ํ˜•์ธ Nesterov Accelerated Gradient (NAG)๋Š” ๋จผ์ € ์˜ˆ์ธก๋œ ์œ„์น˜์—์„œ ๊ธฐ์šธ๊ธฐ๋ฅผ ๊ณ„์‚ฐํ•œ ๋’ค ์ ์šฉํ•ฉ๋‹ˆ๋‹ค. ์ฆ‰, ํ•œ ๋ฐœ ์•ž์„œ ๋ณธ ๋‹ค์Œ ์กฐ์ ˆํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ๋” ์ •๋ฐ€ํ•˜๊ณ  ๋น ๋ฅธ ์ˆ˜๋ ด์„ ์œ ๋„ํ•ฉ๋‹ˆ๋‹ค.

v(t) = β * v(t-1) + α * ∇L(θ - β * v(t-1))
θ = θ - v(t)

 

 

5. ์ •๋ฆฌ ๋ฐ ๋งˆ๋ฌด๋ฆฌ

๋”ฅ๋Ÿฌ๋‹์—์„œ ๋ชจ๋ฉ˜ํ…€์€ ๋‹จ์ˆœํ•œ ๊ธฐ์ˆ  ์ด์ƒ์ž…๋‹ˆ๋‹ค. ํŒŒ๋ผ๋ฏธํ„ฐ๊ฐ€ ๋” ์•ˆ์ •์ ์œผ๋กœ, ๋” ๋น ๋ฅด๊ฒŒ ์ˆ˜๋ ดํ•˜๋„๋ก ๋„์™€์ฃผ๋Š” ์ „๋žต์  ๊ธฐ๋ฒ•์ด๋ฉฐ, ๋Œ€๋ถ€๋ถ„์˜ ๋”ฅ๋Ÿฌ๋‹ ํ”„๋ ˆ์ž„์›Œํฌ์—์„œ ๊ธฐ๋ณธ์ ์œผ๋กœ ์ง€์›๋ฉ๋‹ˆ๋‹ค. SGD์™€ ํ•จ๊ป˜ ์‚ฌ์šฉํ•˜๋ฉด ์„ฑ๋Šฅ์„ ๋Œ์–ด์˜ฌ๋ฆด ์ˆ˜ ์žˆ๊ณ , ๋” ๋‚˜์•„๊ฐ€ Adam ๊ฐ™์€ ๊ณ ๊ธ‰ ์˜ตํ‹ฐ๋งˆ์ด์ €์˜ ํ•ต์‹ฌ ์š”์†Œ๋กœ๋„ ํ™œ์šฉ๋ฉ๋‹ˆ๋‹ค.

๋ชจ๋ธ์ด ํ”๋“ค๋ฆฌ๊ฑฐ๋‚˜ ์ˆ˜๋ ด์ด ๋Š๋ฆด ๋•, ๋ชจ๋ฉ˜ํ…€์„ ๊ผญ ๊ณ ๋ คํ•ด๋ณด์„ธ์š”.