마르코프 프로세스: 미리 정의된 어떤 확률 분포를 따라서 상태와 상태 사이를 이동해 다니는 여정
-> 상태의 집합, 전이 확률 행렬전이 확률 행렬
마르코프 성질: 미래는 오로지 현재에 의해 결정된다.
P[St+1|St]=P[St+1|S1,S2,...St]마르코프 리워드 프로세스(Markov Reward Process)
-> 상태의 집합, 전이 확률 행렬, 보상 함수, 감쇠 인자보상 함수 R: 어떤 상태 s에 도착했을 때 받게 되는 보상
R=E[Rt|St=s] 특정 상태에 도달했을 때 받는 보상이 매번 조금씩 다를 수 있기 때문에 기댓값으로 계산감쇠 인자 γ: 0에서 1사이의 숫자로, 강화학습에서 미래 얻을 보상에 비해 당장 얻는 보상을 얼마나 더 중요하게 여길 것인지 나타내는 파라미터
에피소드: s0,R0,s1,R1,s2,R2,...sT,RT
리턴: Gt=Rt+1+γRt+2+γ2Rt+3+...
리턴은 과거의 보상을 고려하지 않고 미래의 보상을 통해서 정의됨
에이전트의 목적은 미래에 받을 보상의 합을 최대화하는 것!Monte-Carlo 접근법: 샘플링을 통해서 어떤 값을 유추하는 방법론
상태가치함수(State Value Function)
v(s)=E[Gt|St=s]
시점 t에서 상태 s부터 시작하여 에피소드가 끝날 때까지의 리턴 계산
기댓값을 구하려면 에피소드별로 해당 에피소드가 발생할 확률과 그때의 리턴 값을 곱해서 더해주어야 한다.마르코프 결정 프로세스(Markov Decision Process)
-> 상태의 집합, 전이 확률 행렬, 보상 함수, 감쇠 인자, 액션액션: 에이전트는 각 상황마다 액션을 취함
MDP에서 전이 확률 행렬은 현재 상태가 s이고 에이전트가 액션 a를 선택했을 때 다음 상태 s'이 될 확률을 의미
Pss'a=P[St+1=s'|St=s,At=a]
Rsa=E[Rt+1|St=s,At=a]정책 함수(π): 각 상태에서 어떤 액션을 선택할지 정해주는 함수
π(a|s)=P[At=a|St=s]MDP 에서의 상태 가치 함수
vπ(s)=Eπ[Gt|St=s]
s부터 끝까지π 를 따라서 움직일 때 얻는 리턴의 기댓값
->가치 함수는 정책 함수에 의존적임!액션 가치 함수(q(s,a)) : 상태와 액션의 페어, 즉(s,a)를 평가하는 함수
qπ(s,a)=Eπ[Gt|St=s,At=a]
s에서 a를 선택하고 그 이후에는 π 를 따라서 움직일 때 얻는 리턴의 기댓값Prediction과 Control
Prediction: π가 주어졌을 때, 각 상태의 밸류를 평가하는 문제
Control: 최적정책 π*를 찾는 문제일반적인 MDP에서π*을 찾는 것은 간단하지 않다!-> 강화학습을 사용해준다!
- 최적 가치 함수 v*: π*을 따를 때의 가치 함수
문제를 MDP 형태로 만들고, MDP의 최적 정책과 최적 가치 함수를 찾아내는 것이 MDP를 푸는 것!