신경망을 활용한 강화 학습 파트 5: 보상, 미분, 스텝 사이즈 연결 이해하기
(dev.to)
이 글은 강화 학습의 정책 경사(Policy Gradient) 알고리즘에서 보상, 미분, 스텝 사이즈가 어떻게 상호작용하여 신경망의 가중치를 업데이트하고 최적의 의사결정 경로를 찾아가는지 그 수학적 메커니즘을 구체적인 사례를 통해 상세히 설명합니다.
이 글의 핵심 포인트
- 1정책 경사(Policy Gradient) 알고리즘에서 보상, 미분, 스텝 사이즈 간의 수학적 연결 고리 설명
- 2학습률(Learning Rate) 1.0과 스텝 사이즈 0.5를 활용한 편향(Bias) 업데이트 과정 제시
- 3