MDP(Markov Decision Process)
순차적으로 계속 행동을 결정해야 하는 문제를 수학적으로 정의한 것
MDP의 구성
State(상태)
Action(행동)
Reward Function(보상 함수)
Discount Factor(감가율)
State Transition Probability(상태 변환 확률)
Agent(에이전트) : 에이전트는 강화학습에서 의사결정을 하는 역할을 합니다.
Environment(환경) : 에이전트의 의사결정을 반영하고 에이전트에게 정보를 주는 역할을 합니다. = 게임시스템
Observation(관측) : 관측은 환경에서 제공해주는 정보입니다.
State(상태) : 에이전트는 상태를 기반으로 의사결정을 합니다. 상태는 에이전트가 의사결정을 할 때 사용하기 위해 관측값, 행동, 보상을 가공한 정보입니다.
Action(행동) : 에이전트가 의사결정을 통해 취할 수 있는 행동을 의미합니다.
Reward Function(보상 함수) : 에이전트가 특정 상태에서 특정 행동을 했을 때 보상을 받게 되고 에이전트는 이 보상 정보를 통해 학습을 진행합니다.