강화학습2 마르코프 결정 프로세스(Markov Decision Process) 마르코프 프로세스: 미리 정의된 어떤 확률 분포를 따라서 상태와 상태 사이를 이동해 다니는 여정 -> 상태의 집합, 전이 확률 행렬 전이 확률 행렬 마르코프 성질: 미래는 오로지 현재에 의해 결정된다. P[St+1|St]=P[St+1|S1,S2,...St] 마르코프 리워드 프로세스(Markov Reward Process) -> 상태의 집합, 전이 확률 행렬, 보상 함수, 감쇠 인자 보상 함수 R: 어떤 상태 s에 도착했을 때 받게 되는 보상 R=E[Rt|St=s] 특정 상태에 도달했을 때 받는 보상이 매번 조금씩 다를 수 있기 때문에 기댓값으로 계산 감쇠 인자 γ: 0에서 1사이의 숫자로, 강화학습에서 미래 얻을 보상에 비해 당장 얻는 보상을 얼마나 더 중요하게 여길 것인지 나타내는 파라미터 에피소드: .. 2024. 3. 6. 강화학습 1. 기계학습의 분류 인공지능: 인위적으로 만들어진 지능을 넓게 이르는 말 기계학습: 인공지능을 구현하는 하나의 방법론 지도학습(supervised learning) - 정답이 주어짐 비지도학습(unsupervised learning) - 클러스터링등 강화학습(reinforcement learning) : 순차적 의사결정 문제에서 누적 보상(cumulative reward)을 최대화 하기 위해 시행착오를 통해 행동을 교정하는 학습 과정 2. 순차적 의사결정 문제 2024. 3. 5. 이전 1 다음