일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- classification
- Linear
- Regression
- Skip Connection
- GCN
- python
- Manager
- DL
- ResNet
- Vanilla RNN
- version
- cnn
- virtualenv
- sigmoid
- Generative
- vim-plug
- Gated Skip Connection
- Skip Connectioin
- DCGAN
- iTerm2
- Peephole Connection
- Bottleneck Layer
- AI
- GoogLeNet
- Optimizer
- RNN
- Inception V1
- Residual Connection
- Inception Module
- jupyter
- Today
- Total
목록AI (40)
IT Repository
Convolutional Operation¶ Convolutional Layer를 소개하기 전에 이 레이어에 Convolution 이라는 이름이 붙게 된 이유인 Convolution 연산에 대해서 알아봅시다. 아래는 Convolution 연산을 설명하기 위한 사진입니다. Convolution 연산은 기본적으로 어떠한 필터 행렬을 슬라이드 시키는 방식으로 작동합니다. 필터를 슬라이드 시켰을 때 겹치는 부분에 대해서 (1) Element-wise product를 하고, (2) 모두 더합니다. 참고. Element-wise product: 행렬의 원소끼리 곱하는 것 Dot product: 일반적인 행렬간의 곱 연산 아래 코드 블럭은 위 사진의 빨간 박스 부분의 연산을 구현한 것으로써, 실제로 계산해보면서 이 ..
Problems of FC¶ 아래는 우리가 여태껏 보아왔던 MLP 구조에 대한 사진입니다. 여기서 주목할 것은 각 레이어의 node가 일렬로 펴진 채로 이전 층의 모든 node와 연결되어 구성되어 있다는 점입니다. 이러한 층을 FC 레이어(Fully Connected Layer)라고 합니다. 참고. tensorflow.keras.layers.Dense(), torch.nn.Linear() 가 바로 FC층 입니다. 이러한 FC 레이어는 몇가지 문제점을 가지고 있습니다. (1) 파라미터가 너무 많아서 훈련 시간이 너무 오래 걸릴뿐만 아니라 과대적합이 일어나기 쉽습니다. 위의 사진만 보아도 히든 레이어가 2개이고 그 유닛 수가 크지 않음에도 불구하고 수많은 Weight들이 생겨버립니다. (2) 또한 이미지를 ..
이 카테고리에서는 Generative Model 에 대한 내용을 다룹니다. - VAE - Basic of GAN (Generative Adversarial Network) - cGAN (Conditional GAN) - cDCGAN (Conditional Deep Convolutional GAN) 위와 같은 목차를 계획하고 있으며 이후 추가될 예정입니다.
이 카테고리에서는 RNN, Recurrent Neural Network에 대한 내용을 다룹니다. - Basic of RNN (2020/1/16) - LSTM (2020/1/17) - GRU (2020/1/17) - Attention - Convolutional RNN 위와 같은 목차를 계획하고 있으며 이후 추가될 예정입니다.
이 카테고리에서는 CNN, Convolutional Neural Network에 대한 내용을 다룹니다. - Basic of CNN (2020/1/14) - AlexNet (2020/1/14) - VGGNet (Small Filters with Deeper Networks) (2020/1/14) - GoogLeNet (Inception Module & BottleNeck Layer) (2020/1/14) - ResNet (Residual Connection) (2020/1/14) - GCN (Graph Convolutional Network) (2020/1/17) - Image Segmentation - Dilated Conv Net - How to Deal with Imbalanced Classifica..
ADAM (Adaptive Moment Estimation)¶ NAG(Momentum)와 RMSProp(Adaptive Learning rate) 의 장점을 합친 Optimizer $$m_t = \beta_1 m_{t-1} + (1 - \beta_1) g_t \\ v_t = \beta_2 v_{t-1} + (1 - \beta_2) g_t^2 \\ ~\\ \array{\hat m_t = \dfrac{m_t}{1 - \beta_1^t} & \hat v_t = \dfrac{v_t}{1 - \beta_2^t}} \\ ~\\ \theta_{t+1} = \theta_t - \dfrac{\eta}{\sqrt{\hat v_t + \epsilon}} \hat m_t \\ ~\\ \begin{pmatrix} m_t : \..
Vanilla SGD Momentum 개념 Momentum NAG Adaptive learning rate 개념 AdaGrad AdaDelta, RMSProp 위의 두 방법을 병합: ADAM (RMSProp + NAG) Adagrad (Adaptive Gradient)¶ Vanilla SGD : 일괄적인 Learning rate Adagrad : 각 파라미터마다 다른 Learning rate를 적용 (Adaptive Learning rate) $$\theta_{t+1} = \theta - \dfrac{\eta}{\sqrt{G_t + \epsilon}} \cdot \nabla_\theta J(\theta_t) \\ G_t = G_{t-1} + \left( \nabla_\theta J(\theta_t) \r..
Vanilla SGD Momentum 개념 Momentum NAG Adaptive learning rate 개념 AdaGrad AdaDelta, RMSProp 위의 두 방법을 병합: ADAM (RMSProp + NAG) Momentum¶ Vanilla SGD에 관성(Momentum) 개념을 도입 로컬 미니멈에 갖히는 문제를 어느정도 해결하고, Gradient가 Oscillate하는 문제도 어느정도 해결 이전 스텝의 Gradient와 현재 스텝의 Gradient를 모두 고려 $$\theta = \theta - v_t \\ v_t = \gamma v_{t-1} + \eta \nabla_\theta J(\theta) \\ (\gamma : \text{0 ~ 1 범위의 decay 상수})$$ 그러나 모멘텀이 있..