* 이 글은 홍콩과기대 김성훈 교수님의 무료 동영상 강좌 "모두를 위한 머신러닝과 딥러닝 강의"를 보고 요점을 정리한 글 입니다.
Q-Learning in non-deterministic world
Environment(환경)는 Stochastic(확률론적인)한 성질을 가지고 있다고 할 수 있습니다. 따라서 Deterministic한 모델에서처럼 모델의 출력이 매개변수 값과 초기 조건에 의해 완전히 결정되는 것이 아니라 특유의 무작위성이 있기 때문에, 동일한 설정의 매개변수 값과 초기 조건이어도 다른 출력이 발생될 수 있습니다. 따라서 Equation (1)을 그대로 사용하게 되면 실제로는 학습이 잘 되지 않을 수 있습니다.
$$ Q(s, a) = r + \gamma \max_{a'} Q(s', a') $$ | (1) |
예를 들어, 목표에 도달한 학습 단계에서 A1라는 Action을 선택하였지만 환경의 무작위성 때문에 실질적으로는 A2로 움직였다고 한다면 Reward는 A1를 선택한 Reward로 반환됩니다. 이러한 Reward를 비중을 높게 적용시킨다면 다음 학습부터는 A1으로 움직이게 될 것이고 제대로 된 학습을 하지 못하게 됩니다.
이러한 문제점을 해결하기 위해서 Learning Rate를 사용하게 됩니다. Learning Rate를 적용시킨다면 기존의 Q값을 어느정도 지키면서 새로운 학습의 결과를 받아들이기 때문에 훨씬 좋은 학습을 이끌어 내게 됩니다. Learning Rate를 적용시킨 Q-Learning의 수식은 Equation (2)와 같습니다.
$$ Q(s, a) = (1 - \alpha)Q(s, a) + \alpha[r + \gamma \max_{a'} Q(s', a')] $$ | (2) |
위의 수식을 사용하면 훨씬 좋은 결과의 학습을 할 수 있습니다. Learning Rate는 학습을 시키는 사람이 임의의 값으로 설정할 수 있기 때문에 Equation (2)을 Equation (3)로 표현하기도 합니다.
$$ Q(s, a) = Q(s, a) + \alpha[r + \gamma \max_{a'} Q(s', a') - Q(s, a)] $$ | (3) |
'강의 Study > 모두를 위한 머신러닝과 딥러닝 강의-시즌 RL' 카테고리의 다른 글
[시즌RL].Lecture 7 - DQN (0) | 2024.07.15 |
---|---|
[시즌RL].Lecture 6 - Q-Network (2) | 2024.07.14 |
[시즌RL].Lecture 4 - Q-Learning exploit&exploration and discounted reward (2) | 2024.07.12 |
[시즌RL].Lecture 3 - Dummy Q-Learning (0) | 2024.07.11 |
[시즌RL].Lecture 2 - OpenAI GYM 게임해보기 (0) | 2024.07.10 |