Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- Inception V1
- Gated Skip Connection
- DCGAN
- Skip Connectioin
- Linear
- sigmoid
- Residual Connection
- Generative
- AI
- RNN
- Inception Module
- GCN
- classification
- Regression
- Vanilla RNN
- ResNet
- GoogLeNet
- iTerm2
- version
- Skip Connection
- Peephole Connection
- vim-plug
- Optimizer
- Bottleneck Layer
- Manager
- jupyter
- virtualenv
- cnn
- DL
- python
Archives
- Today
- Total
IT Repository
(12) Optimizer - Momentum 개념 본문
- Vanilla SGD
- Momentum 개념
- Momentum
- NAG
- Adaptive learning rate 개념
- AdaGrad
- AdaDelta, RMSProp
- 위의 두 방법을 병합: ADAM (RMSProp + NAG)
- Momentum 개념
Momentum¶
Vanilla SGD에 관성(Momentum) 개념을 도입
로컬 미니멈에 갖히는 문제를 어느정도 해결하고, Gradient가 Oscillate하는 문제도 어느정도 해결
이전 스텝의 Gradient와 현재 스텝의 Gradient를 모두 고려
그러나 모멘텀이 있기 때문에 글로벌 미니멈 근처에서 수렴하는 속도가 너무 느림
NAG (Nesterov Accelerated Gradient)¶
Momentum : 현재있는 점($\theta$)에서 모멘텀 스텝과 Gradient 스텝을 합성
NAG : 현재있는 점($\theta$)에서 모멘텀 스텝을 진행, 이후 새로운 위치($\theta'$)에서 Gradient 스텝을 진행
그러나 결국 모든 파라미터에 대해서 step size가 동일하다는 문제점이 있음
Problem of NAG
$\theta = \{ w_1, w_2, w_3 , \dots, w_n \}$ 일 때,
$w_1$은 변화가 많았음 (이미 Minimum에 있을 확률이 높음)
$w_2$는 변화가 적었음 (아직 Minimum에 도달하지 못했을 확률이 높음)
따라서, 이후 ADAM Optimizer에서는 각 파라미터마다 서로 다르게 step(learning rate)을 진행하는 방식을 도입 (Adaptive Learning rate)
'Basic fundamentals' 카테고리의 다른 글
(14) Optimizer - ADAM Optimizer (0) | 2020.01.13 |
---|---|
(13) Optimizer - Adaptive learning rate 개념 (0) | 2020.01.13 |
(11) Optimizer - Vanilla SGD (0) | 2020.01.13 |
(10) Optimizer (0) | 2020.01.13 |
(9) Other Techniques of Optimize (0) | 2020.01.13 |
Comments