본문 바로가기

반응형

전체 글

(291)
강화 학습 (2) 7-5 기본 모델 가장 간단한 형태로 모델에 상태나 정책이 없고, 주어진 확률에 따라 행동하며 그에 따라 보상이 지급 탐욕 알고리즘(Greedy Algorithm) 현단계에서 최선은 아니지만, 전체적으로 최선인 경로를 선택하기 위해 개발된 것 UCB1 알고리즘(Upper Confidence Bound1 Algorithm) '성공률' + '바이어스'를 최대로 만드는 행동을 선택하는 방법 7-6 정책 경사법 모델 주어진 환경에서 상태를 갖고 관측하는 기능을 추가 강화학습에서 사용하는 가장 일반적인 모델 유형 정책 경사법의 학습 순서 1) 초기 정책을 준비 2) 정책을 파라미터로 변환 3) 파라미터에 따라 골인 지점에 이를 때까지 행동을 반복 4) 성공한 경우, 성공한 행동을 많이 받아들이도록 파라미터를 변경..
강화 학습 (1) 7-1 강화학습의 개념 시행과 보상을 바탕으로 하는 인공지능 기법 주어진 환경에서 의사결정을 최적화할 때 사용 지도학습, 비지도학습으로 나뉨 지도학습: 랜덤 포레스트, 의사결정 트리, 서포트 벡터 머신 (예측과 식별) 비지도학습: 군집 분석, 연관 관계 분석 (특성 분류) 강화학습: 기계 학습의 기법 중 미래의 가치 극대화(Optimization)를 위한 방법 강화학습은 행동과 보상을 통해 에러를 줄여나가는 방식(Trial and Error)을 사용 행동의 결과가 나중에 보상으로 주어지기 때문에 좋은 행동에 대한 즉각적인 판단이 어려움(Delayed Reward) 7-2 강화학습 기법의 개념 마르코프 결정 과정(MDP, Markov Decision Process): 마르코프 연쇄를 바탕으로 순차적인 행동..
통계 기반 기계 학습 - 비지도 학습 통계 기반 기계 학습 - 비지도 학습 비지도학습에 속하는 분석 기법은 빅데이터 분석에 사용하는 기법 빅데이터 '커질 데이터'를 의미 시간의 흐름에 따라 데이터가 지속적으로 생성 생성되는 데이터의 크기가 무한정 커짐 장비마다 생성되는 데이터의 모양이 다양함 생성된 데이터가 잘못되거나 부정확한 정보를 포함하고 있는 경우 많음 데이터의 모양을 통일시키고, 부정확한 정보를 보와하는 데이터 전처리 과정이 중요 시간의 흐름을 고려한 분석 기법인 시계열 분석 중요 6-1 군집 분석(Cluster Analysis) 데이터를 구성하는 각 개체의 유사성을 측정해 상호 유사성이 높은 대상을 집단으로 분류하고, 군집에 속한 개체의 유사성과 서로 다른 군집에 속한 개체간의 상이성을 파악하는 분석 방법 군집 내의 객체는 동질적인..

반응형