본문 바로가기

반응형

강화 학습

(2)
강화 학습 (2) 7-5 기본 모델 가장 간단한 형태로 모델에 상태나 정책이 없고, 주어진 확률에 따라 행동하며 그에 따라 보상이 지급 탐욕 알고리즘(Greedy Algorithm) 현단계에서 최선은 아니지만, 전체적으로 최선인 경로를 선택하기 위해 개발된 것 UCB1 알고리즘(Upper Confidence Bound1 Algorithm) '성공률' + '바이어스'를 최대로 만드는 행동을 선택하는 방법 7-6 정책 경사법 모델 주어진 환경에서 상태를 갖고 관측하는 기능을 추가 강화학습에서 사용하는 가장 일반적인 모델 유형 정책 경사법의 학습 순서 1) 초기 정책을 준비 2) 정책을 파라미터로 변환 3) 파라미터에 따라 골인 지점에 이를 때까지 행동을 반복 4) 성공한 경우, 성공한 행동을 많이 받아들이도록 파라미터를 변경..
강화 학습 (1) 7-1 강화학습의 개념 시행과 보상을 바탕으로 하는 인공지능 기법 주어진 환경에서 의사결정을 최적화할 때 사용 지도학습, 비지도학습으로 나뉨 지도학습: 랜덤 포레스트, 의사결정 트리, 서포트 벡터 머신 (예측과 식별) 비지도학습: 군집 분석, 연관 관계 분석 (특성 분류) 강화학습: 기계 학습의 기법 중 미래의 가치 극대화(Optimization)를 위한 방법 강화학습은 행동과 보상을 통해 에러를 줄여나가는 방식(Trial and Error)을 사용 행동의 결과가 나중에 보상으로 주어지기 때문에 좋은 행동에 대한 즉각적인 판단이 어려움(Delayed Reward) 7-2 강화학습 기법의 개념 마르코프 결정 과정(MDP, Markov Decision Process): 마르코프 연쇄를 바탕으로 순차적인 행동..

반응형