본문 바로가기

텍스트 마이닝

RNN-딥러닝을 이용한 문서 분류 (1)

반응형

10.1 왜 RNN일까?

10.1.1 RNN의 이해

  • RNN(Recurrent Neural NEtworks): 순환 신경망, 시계열 데이터를 다루기 위한 모형
  • 시계열 데이터: 어떤 변수의 값이 시간에 따라 변화하는 것
  • 시계열 모형에서는 입력으로 일정 기간의 연속된 값을 사용

10.1.2 RNN이 문서 분류에 적합한 이유

  • 사람이 문맥을 이해하는 것이 순차적으로 들으면서 이해하는 형태
  • RNN은 앞에서부터 순차적으로 미치는 영향을 계속 축적하는 모형임
  • RNN은 구조상 문맥을 파악하기에 좋은 모형
  • RNN은 딥러닝의 대표적인 문제인 경사소실 문제가 심각
  • 개념적으로 보았을 때 RNN은 문맥의 파악을 잘 반영하며 텍스트 마이닝에 딥러닝을 적용하는 의미 깊은 출발점이 됨

10.1.3 RNN의 문서 분류 적용방향

  • 각 단어는 원핫 벡터로 표현됐다가 짧은 길이의 밀집 벡터(dense vector)로 다시 변환되어 RNN모형에 입력으로 사용
  • 각 단어의 정보는 은닉 노드로 압축되고 이 과정에서 앞 단어가 뒤 단어에 미치는 영향이 순차적으로 축적되어 전달
  • 출력 노드는 모든 정보가 축적된 마지막 은닉 노드에 연결된 것만 사용
  • 마지막 출력 노드를 이용해 문서를 분류

 

 

 

 

 

※ 해당 내용은 <파이썬 텍스트 마이닝 완벽 가이드>의 내용을 토대로 학습하며 정리한 내용입니다.

반응형

'텍스트 마이닝' 카테고리의 다른 글

RNN-딥러닝을 이용한 문서 분류 (3)  (0) 2023.07.22
RNN-딥러닝을 이용한 문서 분류 (2)  (0) 2023.07.21
인공신경망과 딥러닝의 이해  (0) 2023.07.19
감성 분석 (3)  (0) 2023.07.18
감성 분석 (2)  (0) 2023.07.17