728x90
강화학습은 컴퓨터가 어떤 행위를 했을 때 상인가, 벌인가를 판단하여 상을 주는 방향으로 행동을 이어나가는 것이다.
예를 들어, 우리가 마리오 게임을 할 때 아래와 같은 사진처럼 생각할 것이다.
더 다양한 방법이 나올 수 있지만, 버섯에 부딪혀 죽게 된다면,
다음부터는 절대 버섯과 부딪히지 않을 것이라고 예측할 수 있다.
즉, 이와 같이 컴퓨터가 보상을 주는 방향으로 움직이는 것이 강화학습의 핵심이다.
강화학습을 설명할 때의 중요 용어는 아래 사진과 같다.
즉, 정리하자면
상태에 따라 더 많은 보상을 받을 수 있는 행동을 에이전트가 할 수 있도록 하는 정책을 만드는 것이다.
728x90
'AI > ML Basic' 카테고리의 다른 글
보안에 사용되는 AI (0) | 2022.01.29 |
---|---|
머신러닝 EP4. 비지도학습 (0) | 2021.12.22 |
머신러닝 EP3. 지도학습 (0) | 2021.12.22 |
머신러닝 EP2. 표와 머신러닝의 카테고리 (0) | 2021.07.14 |
머신러닝 EP1. 교양 (0) | 2021.07.12 |
댓글