본문 바로가기

반응형

문서분류

(2)
RNN-딥러닝을 이용한 문서 분류 (1) 10.1 왜 RNN일까? 10.1.1 RNN의 이해 RNN(Recurrent Neural NEtworks): 순환 신경망, 시계열 데이터를 다루기 위한 모형 시계열 데이터: 어떤 변수의 값이 시간에 따라 변화하는 것 시계열 모형에서는 입력으로 일정 기간의 연속된 값을 사용 10.1.2 RNN이 문서 분류에 적합한 이유 사람이 문맥을 이해하는 것이 순차적으로 들으면서 이해하는 형태 RNN은 앞에서부터 순차적으로 미치는 영향을 계속 축적하는 모형임 RNN은 구조상 문맥을 파악하기에 좋은 모형 RNN은 딥러닝의 대표적인 문제인 경사소실 문제가 심각 개념적으로 보았을 때 RNN은 문맥의 파악을 잘 반영하며 텍스트 마이닝에 딥러닝을 적용하는 의미 깊은 출발점이 됨 10.1.3 RNN의 문서 분류 적용방향 각 단어..
BOW 기반의 문서 분류 (1) 5.1 20 뉴스그룹 데이터 준비 빛 특성 추출 20 뉴스그룹 데이터셋: 텍스트 마이닝에서 문서 분류의 성능을 측정하기 위해 가장 많이 사용되는 데이터셋 중 하나 5.1.1 데이터셋 확인 및 분리 사이킷런 20 뉴스그룹 데이터 특징 categories 매개변수를 이용해 20개의 topic 중에서 원하는 토픽을 선택할 수 있다. remove로 필요 없는 데이터를 삭제할 수 있다 각 데이터셋 내에서 .data는 텍스트의 내용을, .target은 숫자로 표시된 라벨을 가져오는 데 사용된다 from sklearn.datasets import fetch_20newsgroups #20개의 토픽 중 선택하고자 하는 토픽을 리스트로 생성 categories = ['alt.atheism', 'talk.religion.m..

반응형