머신러닝 EP5. 강화학습

728x90

강화학습은 컴퓨터가 어떤 행위를 했을 때 상인가, 벌인가를 판단하여 상을 주는 방향으로 행동을 이어나가는 것이다.

예를 들어, 우리가 마리오 게임을 할 때 아래와 같은 사진처럼 생각할 것이다.

더 다양한 방법이 나올 수 있지만, 버섯에 부딪혀 죽게 된다면,

다음부터는 절대 버섯과 부딪히지 않을 것이라고 예측할 수 있다.

즉, 이와 같이 컴퓨터가 보상을 주는 방향으로 움직이는 것이 강화학습의 핵심이다.

강화학습을 설명할 때의 중요 용어는 아래 사진과 같다.

즉, 정리하자면

상태에 따라 더 많은 보상을 받을 수 있는 행동을 에이전트가 할 수 있도록 하는 정책을 만드는 것이다.

728x90

reindeer002's Security Study