강화학습은 환경(Environment) 속에서 정책(Policy)에 따른 행위(Action)를 통해 상태(State)를 변화 시키며, 그에 따른 보상(Reward)를 받아 정책(Policy)에 반영한다. 최종적으로는 가장 높은 보상을 얻을 수 있는 정책을 확정하는 것이 목표이다.
간단하지만 생명체가 행위를 결정하는 본질이 잘 담겨있다. 불확실한 환경 속에서 행위를 통한 보상으로 정책을 수정해나가는 것은 시행착오로부터 배우는 생명체의 특징이다. (물론 생명체에겐, 통찰과 응용과 같이 다양한 스킬이 있다)
강화학습은 예전부터 있었지만, 가능한 State와 Action의 경우의 수가 너무 많아 그에 적합한 Policy를 찾는 것이 힘들었는데, Neural network가 도입되면서, 그 진가를 발휘하기 시작했다.
행위를 결정하는 정책을 결정하는 방법에는 두 가지가 있다. 보상이 큰 방향으로 학습하는 Value-based 강화 학습과, 보상을 통해 행위 선택 기준을 학습하는 Policy-based 강화학습이 있다.
두 방식은 비슷해 보이지만 상황에 따라서는 전혀 다른 운명이 결정될 수 있다. Value-based 강화학습에서는 Reward를 기준으로 Policy를 선택하므로 Policy가 휙휙 바뀔 수 있다. 그래서 알고리즘이 불안정하게 되는 경우가 생기는데, Policy-based 강화학습에서는 Reward를 이용해 Policy 자체를 학습하므로 Policy에 안정성이 부여된다.
반응형
'공부 > 인공지능' 카테고리의 다른 글
[인공지능] 인공신경망이 갖는 의미 고찰 (0) | 2018.11.21 |
---|---|
[소개] DeepMimic - 사람처럼 움직이도록 학습하기 (0) | 2018.10.01 |
[인공지능] 인공지능의 한계점과 진화방향에 대한 고찰 (0) | 2017.10.18 |
[고찰] 이항분류와 다항분류에 대하여 (0) | 2017.05.26 |
[고찰] mini batch (0) | 2017.05.22 |
댓글