ALPHAGO1 [Reinforcement Learning-2] Q-Learning에 대한 간단한 이해 Q Learning? Q-Learning은 앞으로 강화학습 공부를 진행해야한다면, 반드시 확실하게 알고 넘어가야하는 부분입니다! Q-Learning을 한줄로 표현하라면 상기의 수학식입니다! (벨만 방정식) Q(s,a) = r + lr * max(Q(s',a')) 이게 무슨의미일까요?? 강화학습은 State → Action에 따른 Reward가 주어지는 방식으로 진행됩니다. ① Q(s,a)는 현재상태(s)에서 a라는 행동을 할때의 값 ② Q(s',a')는 한스텝후의상태(s+1)에서 a'라는 행동을 할때의 값 ③ max(Q(s',a'))는 한스텝후의 상태(s+1)에서 얻을 수 있는 가장 큰 Q값으로, 가장 의미있는 action을 할때의 값 즉, 한글로 풀어쓰면 이렇게 됩니다. 현재 상태의 Q = 보상 + 학.. 2021. 8. 26. 이전 1 다음