정책 경사법 (1) 썸네일형 리스트형 강화 학습 (2) 7-5 기본 모델 가장 간단한 형태로 모델에 상태나 정책이 없고, 주어진 확률에 따라 행동하며 그에 따라 보상이 지급 탐욕 알고리즘(Greedy Algorithm) 현단계에서 최선은 아니지만, 전체적으로 최선인 경로를 선택하기 위해 개발된 것 UCB1 알고리즘(Upper Confidence Bound1 Algorithm) '성공률' + '바이어스'를 최대로 만드는 행동을 선택하는 방법 7-6 정책 경사법 모델 주어진 환경에서 상태를 갖고 관측하는 기능을 추가 강화학습에서 사용하는 가장 일반적인 모델 유형 정책 경사법의 학습 순서 1) 초기 정책을 준비 2) 정책을 파라미터로 변환 3) 파라미터에 따라 골인 지점에 이를 때까지 행동을 반복 4) 성공한 경우, 성공한 행동을 많이 받아들이도록 파라미터를 변경.. 이전 1 다음