본문 바로가기
강화학습

마르코프 결정 프로세스(Markov Decision Process)

by sonysame 2024. 3. 6.
  • 마르코프 프로세스: 미리 정의된 어떤 확률 분포를 따라서 상태와 상태 사이를 이동해 다니는 여정
    -> 상태의 집합, 전이 확률 행렬

  • 전이 확률 행렬

  • 마르코프 성질: 미래는 오로지 현재에 의해 결정된다.
    P[St+1|St]=P[St+1|S1,S2,...St]

  • 마르코프 리워드 프로세스(Markov Reward Process)
    -> 상태의 집합, 전이 확률 행렬, 보상 함수, 감쇠 인자

  • 보상 함수 R: 어떤 상태 s에 도착했을 때 받게 되는 보상
    R=E[Rt|St=s] 특정 상태에 도달했을 때 받는 보상이 매번 조금씩 다를 수 있기 때문에 기댓값으로 계산

  • 감쇠 인자 γ: 0에서 1사이의 숫자로, 강화학습에서 미래 얻을 보상에 비해 당장 얻는 보상을 얼마나 더 중요하게 여길 것인지 나타내는 파라미터

  • 에피소드: s0,R0,s1,R1,s2,R2,...sT,RT

  • 리턴: Gt=Rt+1+γRt+22Rt+3+...
    리턴은 과거의 보상을 고려하지 않고 미래의 보상을 통해서 정의됨
    에이전트의 목적은 미래에 받을 보상의 합을 최대화하는 것!

  • Monte-Carlo 접근법: 샘플링을 통해서 어떤 값을 유추하는 방법론

  • 상태가치함수(State Value Function)
    v(s)=E[Gt|St=s]
    시점 t에서 상태 s부터 시작하여 에피소드가 끝날 때까지의 리턴 계산
    기댓값을 구하려면 에피소드별로 해당 에피소드가 발생할 확률과 그때의 리턴 값을 곱해서 더해주어야 한다.

  • 마르코프 결정 프로세스(Markov Decision Process)
    -> 상태의 집합, 전이 확률 행렬, 보상 함수, 감쇠 인자, 액션

  • 액션: 에이전트는 각 상황마다 액션을 취함
    MDP에서 전이 확률 행렬은 현재 상태가 s이고 에이전트가 액션 a를 선택했을 때 다음 상태 s'이 될 확률을 의미
    Pss'a=P[St+1=s'|St=s,At=a]
    Rsa=E[Rt+1|St=s,At=a]

  • 정책 함수(π): 각 상태에서 어떤 액션을 선택할지 정해주는 함수
    π(a|s)=P[At=a|St=s]

  • MDP 에서의 상태 가치 함수
    vπ(s)=Eπ[Gt|St=s]
    s부터 끝까지π 를 따라서 움직일 때 얻는 리턴의 기댓값
    ->가치 함수는 정책 함수에 의존적임!

  • 액션 가치 함수(q(s,a)) : 상태와 액션의 페어, 즉(s,a)를 평가하는 함수
    qπ(s,a)=Eπ[Gt|St=s,At=a]
    s에서 a를 선택하고 그 이후에는 π 를 따라서 움직일 때 얻는 리턴의 기댓값

  • Prediction과 Control
    Prediction: π가 주어졌을 때, 각 상태의 밸류를 평가하는 문제
    Control: 최적정책 π*를 찾는 문제

    일반적인 MDP에서π*을 찾는 것은 간단하지 않다!-> 강화학습을 사용해준다!

    • 최적 가치 함수 v*: π*을 따를 때의 가치 함수

문제를 MDP 형태로 만들고, MDP의 최적 정책과 최적 가치 함수를 찾아내는 것이 MDP를 푸는 것!

'강화학습' 카테고리의 다른 글

강화학습  (0) 2024.03.05