반응형 AI/딥러닝26 [Optimizer] SGD , Momentum , NAG , Adagrad , Adadelta , RMSprop , Adam Optimizer란 weight를 갱신하는 기법이다. 기본적으로는 gradient vector에 learning rate를 곱하여 갱신한다. Optimizer를 공부할 때 gradient자체가 loss에 미치는 영향력을 알려주는데 왜 learning rate을 또 곱해주는지에 대해 의문을 가졌었다. 혹시 weight를 갱신할 때 gradient에 learning rate이라는 것을 왜 곱하는지를 모른다면, optimizer를 공부하기 전에 아래 포스팅을 읽으면 도움이 될 것이다. https://amber-chaeeunk.tistory.com/75 weight를 갱신할 때 기울기에 왜 Learning rate를 곱할까? Optimizer를 공부하면서 Learning rate에 대해 의문이 들었다. Grad.. 2021. 8. 15. [경사하강법] 미분 , 경사하강법 , gradient vector , 확률적 경사하강법 ( SGD ) 이번 포스팅에서는 weight 업데이트에 사용되는 경사하강법에 대해 정리할 것이다. weight를 조정하는 방법을 설명하기 위해 가장 먼저 미분부터 살펴본다. 그 이유는 기울기를 알면 변수를 어느 방향으로 움직여야 함숫값이 증가하는지 감소하는지를 알 수 있기 때문이다. 그 후 변수가 벡터인 경우의 기울기를 나타내는 gradient vector를 다룰 것이다. 1. 미분(differentiation) 미분은 함수 f의 주어진 점 (x, f(x))에서의 접선의 기울기이다. ※ 파이썬에서 미분은 sym.diff함수를 사용하여 계산할 수 있다. import sympy as sym from sympy.abc import x sym.diff(sym.poly(x**2 + 2*x + 3), x) #poly(2*x + .. 2021. 8. 9. 이전 1 ··· 4 5 6 7 다음 728x90 반응형