본문 바로가기

AI/Reinforcement Learning7

[Reinforcement Learning-1] Thompson sampling model 톰슨 샘플링 톰슨 샘플링 모델은 강화학습의 가장 기본적인 모델입니다. 강화학습을 이해하기 위한 기본적인 선형대수, 확률론은 배제하고 진행해보겠습니다! Beta Distribution 톰슨 샘플링 모델은 Beta Distribution을 활용합니다. Beta Distribution이란, Gaussian Distribution처럼 특정 사건에 대한 분포 표를 의미합니다. 독특하게 인자가 두개인대요 Beta(a,b)로써 a와 b는 각각의 반대의 사건을 의미하며, 극단적으로는 b=1-a로 볼수 있습니다. 톰슨모델은 위의 그림처럼 그려지게 됩니다. a가 커질수록 분포가 오른쪽으로 움직이고, b가 커질수록 분포가 왼쪽으로 움직이는것을 확인하실 수 있는데 여기서 a와 b를 개발자가 원하는 확률을 넣게되면, 해당 사건.. 2021. 8. 26.
[Reinforcement Learning-0] Intro 강화학습(Reinforcement Learning) 강화학습과 딥러닝을 동일한 개념으로 보시는 분들이 많은것 같습니다. 하지만, 강화학습과 심층학습은 서로 다른 각자의 두개길로 걸어왔고, 최근에 두개를 접목하여 극대화된 시너지를 얻게되어 "심층강화학습" 이라는 이상적인 지점을 찾아내었을 뿐입니다. 즉, 각자의 연구영역은 기존에는 고유의 분야였지만, 둘을 통합해보니 더욱 좋은 솔루션을 제공하기에 사용하는것입니다. 개인적으로는 혹자가 저에게 "딥러닝과 강화학습의 차이는 무엇이냐?" 라고 한다면, 딥러닝 : 무수한 데이터들 속에서 질서를 찾아내고 목표값에 대한 손실함수가 최소화되는 방향으로 학습을 진행하는것 강화학습 : 상태(state)에 대한 행동(action)에 따른 보상(Reward)을 극대화 하는 방향.. 2021. 8. 26.