반응형 learning rate 설정 이유1 weight를 갱신할 때 기울기에 왜 Learning rate를 곱할까? Optimizer를 공부하면서 Learning rate에 대해 의문이 들었다. Gradient자체가 얼마나 Loss에 영향을 주는지를 의미하니까 어느 방향으로 내려가야하는지 뿐만아니라 어느 정도로 업데이트 해야할지에 대한 정보도 담고있다고 생각했는데 왜 또 보폭을 설정해주는 지 궁금했다. 다시 생각해봐야할 것은 gradient라는게 weight 한 단위가 변할 때 loss에 대한 영향력을 나타낼 뿐, 그것이 극값의 위치에 도달할 수 있는 크기를 의미하지 않는다는 것이다. 아래 예시를 보자. weight를 기울기만큼 이동하면 방향은 왼쪽으로 잘 가고 있지만 너무 많이 이동해서 계속 (1, 1)과 (-1, 1)로만 갱신되는 모습을 볼 수 있다. 즉, 기울기는 방향에 대한 정보는 잘 전달하지만 극값에 다가가기.. 2021. 8. 15. 이전 1 다음 728x90 반응형