๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ
๐Ÿ”ฅ/AI ๐Ÿค–

[2์ฃผ์ฐจ] ํŒŒ๋ผ๋ฉ”ํ„ฐ ํŠœ๋‹2

by narang111 2021. 10. 6.

๊ฐ€์ค‘์น˜ ๊ทœ์ œ

  • ํ•™์Šต์ค‘ ๊ฐ€์ค‘์น˜๊ฐ€ ํฐ ๊ฒƒ์— ๋Œ€ํ•˜์—ฌ ์ผ์ข…์˜ ํŒจ๋„ํ‹ฐ๋ฅผ ๋ถ€๊ฐ€ํ•ด์„œ ๊ณผ์ ํ•ฉ ์œ„ํ—˜์„ ์ค„์ž„ (ํ•œ๊บผ๋ฒˆ์— ๋„ˆ๋ฌด ๋งŽ์ด ํ•™์Šตํ•˜์ง€๋งˆ!) ⇒ ๋ชจ๋ธ์ด ์ €์žฅํ•  ์ˆ˜ ์žˆ๋Š” ์ •๋ณด์˜ ์–‘๊ณผ ์ข…๋ฅ˜์— ์ œ์•ฝ์„ ๋ถ€๊ณผํ•˜๋Š” ๋ฐฉ๋ฒ•
  • ๋ณต์žกํ•œ ๋ชจ๋ธ์ผ์ˆ˜๋ก ๊ฐ€์ค‘์น˜ ๊ทœ์ œ์˜ ํšจ๊ณผ๊ฐ€ ๋†’์•„์ง
  • ๋„คํŠธ์›Œํฌ๊ฐ€ ์†Œ์ˆ˜์˜ ํŒจํ„ด๋งŒ ๊ธฐ์–ต⇒ ์ตœ์ ํ™” ๋™์•ˆ ์ผ๋ฐ˜ํ™” ๊ฐ€๋Šฅ์„ฑ์ด ๋†’์€ ๊ฐ€์žฅ ์ค‘์š”ํ•œ ํŒจํ„ด์— ์ดˆ์ ์„ ๋งž์ถค
  • "๊ฐ„๋‹จํ•œ๋ชจ๋ธ"=๊ฐ€์ค‘์น˜๊ฐ€ ์ž‘์€ ๊ฐ’์„ ๊ฐ€์ง€๋„๋ก ๋ณต์žก๋„์— ์ œ์•ฝ์„ ์ฃผ๊ธฐ ⇒ ๊ฐ€์ค‘์น˜ ๊ทœ์ œ (Weight Regularization)
      ๋‘๊ฐ€์ง€ ๋ฐฉ๋ฒ•
    1. L1๊ทœ์ œ: ๊ฐ€์ค‘์น˜์˜ ์ ˆ๋Œ“๊ฐ’์— ๋น„๋ก€ํ•˜๋Š” Penalty๊ฐ€ ์ถ”๊ฐ€
    2. L2๊ทœ์ œ: ๊ฐ€์ค‘์น˜์˜ ์ œ๊ณฑ์— ๋น„๋ก€ํ•˜๊ฒŒ ์ถ”๊ฐ€ ⇒ Weight Decay
      *์ฐจ์ด์ : ํšจ๊ณผ๋Š” ๋น„์Šทํ•˜์ง€๋งŒ L1์€ ๊ฐ€์ค‘์น˜ ํŒŒ๋ผ๋ฉ”ํ„ฐ๋ฅผ 0์œผ๋กœ ๋งŒ๋“ค์ˆ˜ ์žˆ๊ธฐ๋•Œ๋ฌธ์— L2๋ฅผ ๋” ๋งŽ์ด ์‚ฌ์šฉํ•จ

 

Drop out

  • ์‹ ๊ฒฝ๋ง ๋ชจ๋ธ์ด ๋ณต์žกํ•ด์งˆ๋•Œ neuron์˜ ์—ฐ๊ฒฐ์„ ์ž„์˜๋กœ ์‚ญ์ œํ•ด ์‹ ํ˜ธ๋ฅผ ์ „๋‹ฌ ๋ชปํ•˜๋„๋ก ์„ค์ •
  • (๋žœ๋คํ•˜๊ฒŒ ์ผ์ •ํ•œ ๋น„์œจ์˜ neuron์„ ์‚ญ์ œํ•˜๊ธฐ ๋•Œ๋ฌธ์—) ํ•™์Šตํ• ๋•Œ neuron์„ ๋ฌด์ž‘์œ„๋กœ ํ•™์Šตํ•ด์„œ
    ๋งค๋ฒˆ ๋‹ค๋ฅธ ๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚ค๋Š” ํšจ๊ณผ๊ฐ€ ์žˆ์Œ
  • ์•™์ƒ๋ธ”๊ณผ ๋น„์Šท: ์„œ๋กœ๋‹ค๋ฅธ ๋ชจ๋ธ์„ ํ•™์Šตํ•ด์„œ ๊ฐœ๋ณ„ ๋ชจ๋ธ์— ๋‚˜์˜จ ์ถœ๋ ฅ์˜ ํ‰๊ท ์œผ๋กœ ๊ฒฐ๊ณผ๊ฐ’์„ ์ถ”๋ก 

 

๋ชฉ์ ํ•จ์ˆ˜: Loss Function

  • ์ตœ๋Œ€ํ™” Or ์ตœ์†Œํ™” - ์ผ๋ฐ˜์ ์œผ๋กœ ์ตœ์†Œํ™” ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐ
    → ๊ฐ€์žฅ ๋ณดํŽธ์ ์œผ๋กœ Gradient Descent๋ฅผ ํ†ตํ•ด ์ตœ์ €์ ์„ ์ฐพ๋Š”๊ฒƒ์ด ๋ชฉํ‘œ
  • ์–ด๋А ์ง€์ ์„ ์ฐพ์•„๊ฐˆ๊ฑฐ์•ผ๋ผ๋Š” ๋ชฉ์ ํ•จ์ˆ˜๋Š”
    Classification(๋ถ„๋ฅ˜๋ฌธ์ œ) Vs. Regression(์˜ˆ์ธก, ์ˆซ์ž๋ฌธ์ œ) ์ด๋ƒ์— ๋”ฐ๋ผ ๋‹ค๋ฅธ loss function์„ ์‚ฌ์šฉํ•ด์•ผํ•จ
  • ๊ฐ ๋ชฉ์ ํ•จ์ˆ˜ ๋ณ„ ํŠน์ง•
    1. Mean Square Error (MSE) : ๊ฐ€์žฅ ๋ณดํŽธ์ ์ธ ํ•จ์ˆ˜ → ์˜ˆ์ธก๊ฐ’๊ณผ ์‹ค์ œ๊ฐ’ ์‚ฌ์ด์˜ ๊ฑฐ๋ฆฌ์˜ ์ œ๊ณฑ์„ ๋”ํ•œ๊ฐ’
    2. Root MSE (RMSE)—L2 Loss: ๋˜ ๋‹ค๋ฅธ ๊ฐ€์žฅ ๋ณดํŽธ์ ์ธ ํ•จ์ˆ˜ → MSE์˜ ๋ฃจํŠธ๊ฐ’์„ ์”Œ์›Œ์„œ ์•ˆ์ •์ ์œผ๋กœ ๋‹ต์„ ์ฐพ์„์ˆ˜ ์žˆ์œผ๋‚˜ outlier์— ์˜ˆ๋ฏผํ•จ
    3. Mean Absolute Error (MAE) —L1 Loss: ์—ญ์‹œ ๋ณดํŽธ์ ์ธํ•จ์ˆ˜ → ์˜ˆ์ธก๊ฐ‘์†Œ๊ฐ€ ์‹ค์ œ๊ฐ’ ์‚ฌ์ด์˜ ๊ฑฐ๋ฆฌ์— ์ ˆ๋Œ€๊ฐ’์„ ๋”ํ•œ ๊ฐ’์ด๋ผ ๋ฐฉํ–ฅ๊ณผ ์ƒ๊ด€์—†์ด ์˜ค์ฐจ ํฌ๊ธฐ์˜ ํ‰๊ท ์„ ๊ตฌํ•จ. outlier์— ๊ฐ•ํ•จ

 

๊ฐ€์ค‘์น˜ ์ดˆ๊ธฐํ™”

  • ๊ฐ ์ธต์˜ W,b์ดˆ๊ธฐ๊ฐ’ ์„ค์ •์€ ๋งค์šฐ ์ค‘์š”!
    - ๋ฌธ์ œ ์ž์ฒด๊ฐ€ non-convex optimization์ด๋ผ ์‹œ์ž‘์ ์— ๋”ฐ๋ผ ์ตœ์ ์ง€์ ์„ ์ฐพ์ง€ ๋ชปํ•˜๊ฒŒ ๋  ์ˆ˜๋„ ์žˆ์Œ 
  • Gradient ์กฐ์ ˆ์—๋„ ์œ ์˜๋ฏธํ•œ ํšจ๊ณผ
    1. t=wx+b ์—์„œ w=100, b=50์ด๋ฉด 0.01์˜ ์ž‘์€ x๊ฐ’์œผ๋กœ๋„ t ๋Š” 51์ด ๋  ์ˆ˜์žˆ์Œ.
    2. ์ด๋•Œ sigmoidํ•จ์ˆ˜๋ฅผ ํ†ต๊ณผ์‹œํ‚ค๋ฉด f'(51)์ด ๋ฐ˜ํ™˜๋˜๋Š”๋ฐ t๊ฐ€ 5๋งŒ ๋„˜์–ด๋„ 0์— ์ˆ˜๋ ดํ•˜๊ธฐ ๋•Œ๋ฌธ์— Gradient๊ฐ€ ์ฃฝ์–ด๋ฒ„๋ฆฌ๊ฒŒ๋จ
    3. ๋„ˆ๋ฌด์ž‘์•„์ ธ์„œ ํ•™์Šต๋ถˆ๊ฐ€!
  • ๊ฐ€์ค‘์น˜์˜ ์ค‘์š”์„ฑ
    1. ์ฒ˜์Œ๋ถ€ํ„ฐ 0์ด๋ฉด ํ•™์Šต์ด ๋ถˆ๊ฐ€๋Šฅํ•ด์งˆ ์ˆ˜ ์žˆ์Œ
    2. ์ฒ˜์Œ๋ถ€ํ„ฐ weight๊ฐ’์ด ์ตœ์ ์— ๊ฐ€๊น๋‹ค๋ฉด gradient๊ฐ€ ์ž‘์•„์ ธ๋„ ์ข‹์€ ๋ชจ๋ธ์ด ํ˜•์„ฑ๋  ์ˆ˜ ์žˆ์Œ
    3. ์ฒ˜์Œ๋ถ€ํ„ฐ weight๊ฐ’์ด ์ข‹์œผ๋ฉด ํ•™์ŠตํšŸ์ˆ˜๊ฐ€ ๋งŽ์ง€ ์•Š์•„๋„ ํ›Œ๋ฅญํ•œ ๋ชจ๋ธ ์ƒ์„ฑ๊ฐ€๋Šฅ
  • ๊ฐ€์ค‘์น˜ ์ดˆ๊ธฐํ™” ๋ฐฉ๋ฒ•๋“ค
    1. Zero Initialization ⇒ Parameter๊ฐ’์ด ๋ชจ๋‘ ๊ฐ™๋‹ค๋ฉด ๊ฒฐ๊ตญ ๋ชจ๋‘ ๊ฐ™์€ ๊ฐ’์œผ๋กœ ๋ณ€ํ•จ ⇒ ์—ฌ๋Ÿฌ ๋…ธ๋“œ๋กœ ์‹ ๊ฒฝ๋ง์„ ๊ตฌ์„ฑํ•˜๋Š” ์˜๋ฏธ๊ฐ€ ์—†์Œ
    2. Random Initialization ⇒ ์ •๊ทœ๋ถ„ํฌ๋กœ ๊ฐ€์ค‘์น˜๋ฅผ ๋žœ๋ค์œผ๋กœ ์ดˆ๊ธฐํ™” ⇒ Vanishing Gradient OR 0.5๋กœ ๊ฐ™์€ ๊ฐ’์œผ๋กœ ์ˆ˜๋ ด
    3. Xavier Initialization ⇒ Sigmoid์ผ๋•Œ ์ถ”์ฒœ ๊ณ ์ •๋œ ํ‘œ์ค€ํŽธ์ฐจ๊ฐ€ ์•„๋‹Œ ์ด์ „ hidden unit์ˆ˜์— ๋งž์ถ”์–ด ๋ณ€ํ™”์‹œํ‚ด
    4. He Initialization⇒ ReLUํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ• ๋•Œ ์ถ”์ฒœ

 

ํŠœ๋‹๊ธฐ๋ฒ•๋“ค์„ ์•Œ์•„๋ดค๋Š”๋ฐ

ํ•„์ˆ˜์ ์ธ ๊ฒƒ๋“ค์€ activation ํ•จ์ˆ˜, ์—ํฌํฌ ์ˆซ์ž, layer ์ˆซ์ž, batch ์‚ฌ์ด์ฆˆ๋Š” ํ•„์ˆ˜์ ์œผ๋กœ ์„ค์ •ํ•ด์ฃผ์–ด์•ผํ•œ๋‹ค.