๊ฐ์ค์น ๊ท์
- ํ์ต์ค ๊ฐ์ค์น๊ฐ ํฐ ๊ฒ์ ๋ํ์ฌ ์ผ์ข ์ ํจ๋ํฐ๋ฅผ ๋ถ๊ฐํด์ ๊ณผ์ ํฉ ์ํ์ ์ค์ (ํ๊บผ๋ฒ์ ๋๋ฌด ๋ง์ด ํ์ตํ์ง๋ง!) ⇒ ๋ชจ๋ธ์ด ์ ์ฅํ ์ ์๋ ์ ๋ณด์ ์๊ณผ ์ข ๋ฅ์ ์ ์ฝ์ ๋ถ๊ณผํ๋ ๋ฐฉ๋ฒ
- ๋ณต์กํ ๋ชจ๋ธ์ผ์๋ก ๊ฐ์ค์น ๊ท์ ์ ํจ๊ณผ๊ฐ ๋์์ง
- ๋คํธ์ํฌ๊ฐ ์์์ ํจํด๋ง ๊ธฐ์ต⇒ ์ต์ ํ ๋์ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ์ด ๋์ ๊ฐ์ฅ ์ค์ํ ํจํด์ ์ด์ ์ ๋ง์ถค
- "๊ฐ๋จํ๋ชจ๋ธ"=๊ฐ์ค์น๊ฐ ์์ ๊ฐ์ ๊ฐ์ง๋๋ก ๋ณต์ก๋์ ์ ์ฝ์ ์ฃผ๊ธฐ ⇒ ๊ฐ์ค์น ๊ท์ (Weight Regularization)
๋๊ฐ์ง ๋ฐฉ๋ฒ
- L1๊ท์ : ๊ฐ์ค์น์ ์ ๋๊ฐ์ ๋น๋กํ๋ Penalty๊ฐ ์ถ๊ฐ
- L2๊ท์ : ๊ฐ์ค์น์ ์ ๊ณฑ์ ๋น๋กํ๊ฒ ์ถ๊ฐ ⇒ Weight Decay
*์ฐจ์ด์ : ํจ๊ณผ๋ ๋น์ทํ์ง๋ง L1์ ๊ฐ์ค์น ํ๋ผ๋ฉํฐ๋ฅผ 0์ผ๋ก ๋ง๋ค์ ์๊ธฐ๋๋ฌธ์ L2๋ฅผ ๋ ๋ง์ด ์ฌ์ฉํจ
Drop out
- ์ ๊ฒฝ๋ง ๋ชจ๋ธ์ด ๋ณต์กํด์ง๋ neuron์ ์ฐ๊ฒฐ์ ์์๋ก ์ญ์ ํด ์ ํธ๋ฅผ ์ ๋ฌ ๋ชปํ๋๋ก ์ค์
- (๋๋คํ๊ฒ ์ผ์ ํ ๋น์จ์ neuron์ ์ญ์ ํ๊ธฐ ๋๋ฌธ์) ํ์ตํ ๋ neuron์ ๋ฌด์์๋ก ํ์ตํด์
๋งค๋ฒ ๋ค๋ฅธ ๋ชจ๋ธ์ ํ์ต์ํค๋ ํจ๊ณผ๊ฐ ์์ - ์์๋ธ๊ณผ ๋น์ท: ์๋ก๋ค๋ฅธ ๋ชจ๋ธ์ ํ์ตํด์ ๊ฐ๋ณ ๋ชจ๋ธ์ ๋์จ ์ถ๋ ฅ์ ํ๊ท ์ผ๋ก ๊ฒฐ๊ณผ๊ฐ์ ์ถ๋ก
๋ชฉ์ ํจ์: Loss Function
- ์ต๋ํ Or ์ต์ํ - ์ผ๋ฐ์ ์ผ๋ก ์ต์ํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐ
→ ๊ฐ์ฅ ๋ณดํธ์ ์ผ๋ก Gradient Descent๋ฅผ ํตํด ์ต์ ์ ์ ์ฐพ๋๊ฒ์ด ๋ชฉํ - ์ด๋ ์ง์ ์ ์ฐพ์๊ฐ๊ฑฐ์ผ๋ผ๋ ๋ชฉ์ ํจ์๋
Classification(๋ถ๋ฅ๋ฌธ์ ) Vs. Regression(์์ธก, ์ซ์๋ฌธ์ ) ์ด๋์ ๋ฐ๋ผ ๋ค๋ฅธ loss function์ ์ฌ์ฉํด์ผํจ - ๊ฐ ๋ชฉ์ ํจ์ ๋ณ ํน์ง
- Mean Square Error (MSE) : ๊ฐ์ฅ ๋ณดํธ์ ์ธ ํจ์ → ์์ธก๊ฐ๊ณผ ์ค์ ๊ฐ ์ฌ์ด์ ๊ฑฐ๋ฆฌ์ ์ ๊ณฑ์ ๋ํ๊ฐ
- Root MSE (RMSE)—L2 Loss: ๋ ๋ค๋ฅธ ๊ฐ์ฅ ๋ณดํธ์ ์ธ ํจ์ → MSE์ ๋ฃจํธ๊ฐ์ ์์์ ์์ ์ ์ผ๋ก ๋ต์ ์ฐพ์์ ์์ผ๋ outlier์ ์๋ฏผํจ
- Mean Absolute Error (MAE) —L1 Loss: ์ญ์ ๋ณดํธ์ ์ธํจ์ → ์์ธก๊ฐ์๊ฐ ์ค์ ๊ฐ ์ฌ์ด์ ๊ฑฐ๋ฆฌ์ ์ ๋๊ฐ์ ๋ํ ๊ฐ์ด๋ผ ๋ฐฉํฅ๊ณผ ์๊ด์์ด ์ค์ฐจ ํฌ๊ธฐ์ ํ๊ท ์ ๊ตฌํจ. outlier์ ๊ฐํจ
๊ฐ์ค์น ์ด๊ธฐํ
- ๊ฐ ์ธต์ W,b์ด๊ธฐ๊ฐ ์ค์ ์ ๋งค์ฐ ์ค์!
- ๋ฌธ์ ์์ฒด๊ฐ non-convex optimization์ด๋ผ ์์์ ์ ๋ฐ๋ผ ์ต์ ์ง์ ์ ์ฐพ์ง ๋ชปํ๊ฒ ๋ ์๋ ์์ - Gradient ์กฐ์ ์๋ ์ ์๋ฏธํ ํจ๊ณผ
- t=wx+b ์์ w=100, b=50์ด๋ฉด 0.01์ ์์ x๊ฐ์ผ๋ก๋ t ๋ 51์ด ๋ ์์์.
- ์ด๋ sigmoidํจ์๋ฅผ ํต๊ณผ์ํค๋ฉด f'(51)์ด ๋ฐํ๋๋๋ฐ t๊ฐ 5๋ง ๋์ด๋ 0์ ์๋ ดํ๊ธฐ ๋๋ฌธ์ Gradient๊ฐ ์ฃฝ์ด๋ฒ๋ฆฌ๊ฒ๋จ
- ๋๋ฌด์์์ ธ์ ํ์ต๋ถ๊ฐ!
- ๊ฐ์ค์น์ ์ค์์ฑ
- ์ฒ์๋ถํฐ 0์ด๋ฉด ํ์ต์ด ๋ถ๊ฐ๋ฅํด์ง ์ ์์
- ์ฒ์๋ถํฐ weight๊ฐ์ด ์ต์ ์ ๊ฐ๊น๋ค๋ฉด gradient๊ฐ ์์์ ธ๋ ์ข์ ๋ชจ๋ธ์ด ํ์ฑ๋ ์ ์์
- ์ฒ์๋ถํฐ weight๊ฐ์ด ์ข์ผ๋ฉด ํ์ตํ์๊ฐ ๋ง์ง ์์๋ ํ๋ฅญํ ๋ชจ๋ธ ์์ฑ๊ฐ๋ฅ
- ๊ฐ์ค์น ์ด๊ธฐํ ๋ฐฉ๋ฒ๋ค
- Zero Initialization ⇒ Parameter๊ฐ์ด ๋ชจ๋ ๊ฐ๋ค๋ฉด ๊ฒฐ๊ตญ ๋ชจ๋ ๊ฐ์ ๊ฐ์ผ๋ก ๋ณํจ ⇒ ์ฌ๋ฌ ๋ ธ๋๋ก ์ ๊ฒฝ๋ง์ ๊ตฌ์ฑํ๋ ์๋ฏธ๊ฐ ์์
- Random Initialization ⇒ ์ ๊ท๋ถํฌ๋ก ๊ฐ์ค์น๋ฅผ ๋๋ค์ผ๋ก ์ด๊ธฐํ ⇒ Vanishing Gradient OR 0.5๋ก ๊ฐ์ ๊ฐ์ผ๋ก ์๋ ด
- Xavier Initialization ⇒ Sigmoid์ผ๋ ์ถ์ฒ ๊ณ ์ ๋ ํ์คํธ์ฐจ๊ฐ ์๋ ์ด์ hidden unit์์ ๋ง์ถ์ด ๋ณํ์ํด
- He Initialization⇒ ReLUํจ์๋ฅผ ์ฌ์ฉํ ๋ ์ถ์ฒ
ํ๋๊ธฐ๋ฒ๋ค์ ์์๋ดค๋๋ฐ
ํ์์ ์ธ ๊ฒ๋ค์ activation ํจ์, ์ํฌํฌ ์ซ์, layer ์ซ์, batch ์ฌ์ด์ฆ๋ ํ์์ ์ผ๋ก ์ค์ ํด์ฃผ์ด์ผํ๋ค.
'๐ฅ > AI ๐ค' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[2์ฃผ์ฐจ] ํ๋ผ๋ฉํฐ ํ๋ - 'ํน์ง' ์ด๋ฆฌ๊ธฐ (0) | 2021.10.02 |
---|---|
[1์ฃผ์ฐจ] ์์ฝ & ๋ง๋ฌด๋ฆฌ (0) | 2021.09.29 |
[1์ฃผ์ฐจ] LSTM (0) | 2021.09.29 |
[1์ฃผ์ฐจ] ๋ฅ๋ฌ๋ ๊ธฐ์ด๋ชจ๋ธ : MLP (0) | 2021.09.29 |
[1์ฃผ์ฐจ] ์์ ๋ชฉํ (0) | 2021.09.28 |