인공신경망1 [인공지능] 강화학습 맛보기 강화학습은 환경(Environment) 속에서 정책(Policy)에 따른 행위(Action)를 통해 상태(State)를 변화 시키며, 그에 따른 보상(Reward)를 받아 정책(Policy)에 반영한다. 최종적으로는 가장 높은 보상을 얻을 수 있는 정책을 확정하는 것이 목표이다. 간단하지만 생명체가 행위를 결정하는 본질이 잘 담겨있다. 불확실한 환경 속에서 행위를 통한 보상으로 정책을 수정해나가는 것은 시행착오로부터 배우는 생명체의 특징이다. (물론 생명체에겐, 통찰과 응용과 같이 다양한 스킬이 있다) 강화학습은 예전부터 있었지만, 가능한 State와 Action의 경우의 수가 너무 많아 그에 적합한 Policy를 찾는 것이 힘들었는데, Neural network가 도입되면서, 그 진가를 발휘하기 시작했.. 2018. 6. 6. 이전 1 다음