일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- Skip Connectioin
- iTerm2
- classification
- version
- Regression
- DCGAN
- Linear
- Optimizer
- AI
- Residual Connection
- RNN
- Generative
- Skip Connection
- virtualenv
- Peephole Connection
- GCN
- vim-plug
- Manager
- Gated Skip Connection
- python
- sigmoid
- GoogLeNet
- Inception Module
- ResNet
- Vanilla RNN
- jupyter
- cnn
- DL
- Inception V1
- Bottleneck Layer
- Today
- Total
목록Basic fundamentals (15)
IT Repository
Overfitting¶ Binary Classification에서 Decision boundary에 걸쳐있는 샘플들 있다고 가정합니다. (사실 대부분 Real world에서는 Decision boundary 근처에 수많은 샘플들이 있겠죠.) 만약 Model Capacity를 높인다면 학습이 진행됨에 따라 경계에 걸쳐있는 샘플들도 분류할 수 있는 더 복잡한 Decision boundary가 만들어질 것입니다. True Risk vs Empirical Risk 쉽게 설명하면 True Risk와 Empirical Risk는 통계에서의 모수와 표본의 관계입니다. - True Risk : 모든 데이터에 대해서 계산한 오차값 - Empirical Risk : 표본을 통해 계산한 오차값 우리는 현실세계의 어떠한 문제..
Model Capacity¶ 어떠한 Regression Problem이 있다고 가정합니다. 그리고 여기서 Real value의 분포가 3차 함수와 유사하다고 가정하고, 아래의 두 모델을 최적화한다고 생각해봅시다. $H(x) = wx+b$ 와 같이 단순한 선형 함수 모델은 적합한 예측이 불가능할 것입니다. $H(x) = w_1x^3 + w_2x^2 + w_3x + b$ 와 같이 더 복잡한 3차 함수의 모델이 단순한 모델보다 Real value의 분포와 근사하게 예측할 것입니다. 이를 Hypothesis가 아니라 파라미터의 관점에서 생각해봅시다. 첫번째 모델과 두번째 모델 중 어느 모델이 더 많은 파라미터를 갖고 있을까요? 두번째의 더 복잡한 모델이 더 많은 파라미터를 가지고 있을 것입니다. 그냥 보아도 $..
What is Backpropagation?¶ Backpropagation은 MLP의 훈련을 가능하게 할 수 있는 파라미터 업데이트 방식입니다. 아래의 Backpropagation이 진행되는 순서를 통해 전체적인 과정을 살펴봅시다. 가장 마지막 뉴런의 Gradient를 계산 그 Gradient를 바탕으로 바로 이전 뉴런의 Gradient를 계산 다시 그 Gradient를 바탕으로 바로 이전 뉴런의 Gradient를 계산 이를 반복하면 가장 마지막 뉴런에서부터 가장 처음의 뉴런까지 모든 뉴런의 파라미터를 업데이트하게 됩니다. (뉴런을 Deep Learning 분야의 컴퓨터 공학적 표현으로는 "노드" 라고 합니다.) Gradient Calculation for MLP¶ MLP는 수많은 노드들이 연결되어 복잡..
Structure of Neuron¶ img src = https://s3-us-west-2.amazonaws.com/ 1. Dendrite에서 다른 뉴런들로부터 전기신호를 받음 2. 신호들을 조합하여 처리 3. Axon terminal에서 다른 Neuron으로 넘겨줌 Neural Network: Mathematical Model of Neuron¶ 아래는 위의 Neuron의 구조를 수학적으로 모델링한 것입니다. $\array{\textbf{axon from a neuron} && \textbf{synapse} &&\textbf{dendrite} \\ x_0 & \rightarrow & w_0 & \rightarrow & w_0x_0 \\ &&&& w_1x_1 \\ &&&& w_2x_2} \Rightar..
How to minimize cost¶ (손실을 나타내는 loss와 cost는 서로 동일한 의미로 사용됩니다.) 아래부터는 조금 수식이 복잡해 질 수 있으므로 편의상 b=0인 경우로 수식을 간략화하겠습니다. $H(x) = wx \\ cost(w) = \dfrac{1}{m} \displaystyle \sum_{i=1}^{m} \big( wx^{(i)} - y^{(i)} \big)^2$ 그러면 이제 모델이 얼마나 좋은지 나쁜지에 대해서는 계산할 수 있는데, 어떻게 가장 좋은 모델을 찾아낼 수 있을까요? 우선 가능한 w에 대해서 모두 대입해보는 것이 가능할 것입니다. 이와 같이 파라미터(w)가 1개인 경우에는 가능할 수도 있지만, 파라미터가 20만개 이상되는 일반적인 DL 모델에서는 거의 불가능할 것입니다. ..
Loss Function¶ 손실함수는 최적의 $H(x)$를 찾기 위해서, w와 b에 따른 $H(x)$값과 실제 y값과의 차이를 계산합니다. x와 y는 이미 정해져있고 w와 b의 값에 따라서 손실이 변화하므로 아래와 같이 수식으로 표현할 수 있습니다. $L(w, b) = H(x) - y$ $H(x)$를 통해 나오는 값은 설정된 w와 b에 따라 모델이 예측하는 예측값입니다. 만약 예측값과 실제값이 비슷하다면 손실함수의 값은 작아지고 차이가 크다면 손실함수의 값이 (절대값이) 커질 것입니다. 실제로는 제곱(MSE)이나 절대값(MAE)을 사용하여 계산합니다. $L(w, b) = \big( H(x) - y \big)^2$ 이와 같이 손실함수를 정의하고, 손실함수에 모든 데이터를 대입하여 모델의 전체 손실을 계산합..