본문 바로가기

알파고3

[Reinforcement Learning-3] Q-Learning으로 최적경로 찾기 [이전글] https://limitsinx.tistory.com/152 [강화학습-2] Q-Learning 개념 Q Learning? Q-Learning은 앞으로 강화학습 공부를 진행해야한다면, 반드시 확실하게 알고 넘어가야하는 부분입니다! Q-Learning을 한줄로 표현하라면 상기의 수학식입니다! Q(s,a) = r + lr * max(Q(s',a')) 이.. limitsinx.tistory.com 지난글에서는 Q-Learning의 개념에대해 정리해보았습니다. 이번에는 'pytorch'를 기반으로, 간단한 길찾기 문제에 접목하여 코드 구현을 해보겠습니다. 위의 미로에서 A에서 I까지 가는 방법을 Q-Learning으로 해결해보고자 합니다. 상/하/좌/우로만 움직일 수 있다고 가정할 때, A는 B와D로.. 2021. 8. 28.
[Reinforcement Learning-2] Q-Learning에 대한 간단한 이해 Q Learning? Q-Learning은 앞으로 강화학습 공부를 진행해야한다면, 반드시 확실하게 알고 넘어가야하는 부분입니다! Q-Learning을 한줄로 표현하라면 상기의 수학식입니다! (벨만 방정식) Q(s,a) = r + lr * max(Q(s',a')) 이게 무슨의미일까요?? 강화학습은 State → Action에 따른 Reward가 주어지는 방식으로 진행됩니다. ① Q(s,a)는 현재상태(s)에서 a라는 행동을 할때의 값 ② Q(s',a')는 한스텝후의상태(s+1)에서 a'라는 행동을 할때의 값 ③ max(Q(s',a'))는 한스텝후의 상태(s+1)에서 얻을 수 있는 가장 큰 Q값으로, 가장 의미있는 action을 할때의 값 즉, 한글로 풀어쓰면 이렇게 됩니다. 현재 상태의 Q = 보상 + 학.. 2021. 8. 26.
[Reinforcement Learning-0] Intro 강화학습(Reinforcement Learning) 강화학습과 딥러닝을 동일한 개념으로 보시는 분들이 많은것 같습니다. 하지만, 강화학습과 심층학습은 서로 다른 각자의 두개길로 걸어왔고, 최근에 두개를 접목하여 극대화된 시너지를 얻게되어 "심층강화학습" 이라는 이상적인 지점을 찾아내었을 뿐입니다. 즉, 각자의 연구영역은 기존에는 고유의 분야였지만, 둘을 통합해보니 더욱 좋은 솔루션을 제공하기에 사용하는것입니다. 개인적으로는 혹자가 저에게 "딥러닝과 강화학습의 차이는 무엇이냐?" 라고 한다면, 딥러닝 : 무수한 데이터들 속에서 질서를 찾아내고 목표값에 대한 손실함수가 최소화되는 방향으로 학습을 진행하는것 강화학습 : 상태(state)에 대한 행동(action)에 따른 보상(Reward)을 극대화 하는 방향.. 2021. 8. 26.