'Activation function' 태그의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2025/12 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

글쓰기
방명록
RSS
관리

목록Activation function (1)

IT Repository

(8) Gradient Vanishing

Gradient Vanishing¶ 모델의 크기가 커질 때, 특히 모델의 층이 깊어질 때에 발생하는 문제는 Overfitting외에도 한가지가 더 있습니다. 바로 Backpropagation을 할 때에 Gradient가 점차 소실되어 깊은 층에 있는 파라미터가 거의 업데이트되지 않는 문제입니다. $g = xy$ 이고, $\dfrac{dL}{dx} = \cdots \cdot \dfrac{dg}{dx}$ 가 Gradient를 구하기 위한 Chain Rule 이 경우에 $\dfrac{dg}{dx} = y$ 입니다. 이 때에 y가 Sigmoid의 결과값이고 Sigmoid에 매우 작은 값이 인풋으로 들어온다고 가정해봅시다. Sigmoid 함수는 아주 작은 값이 인풋으로 들어올 때에 거의 0에 수렴하게 됩니다. 이..

Basic fundamentals 2020. 1. 13. 17:53

Prev 1 Next

목록Activation function (1)

IT Repository

티스토리툴바