본문 바로가기

텍스트 마이닝

텍스트 마이닝 기초 (1)

반응형

1.1 텍스트 마이닝의 정의

  • 텍스트에서 고품질 정보를 추출하는 과정
  • 텍스트로부터 패턴이나 트렌드를 분석해서 추출한 고품질의 정보
  • 텍스트에 숨어 있는 패턴을 이용해 어떤 사건을 예측하는 것
  • 자연어 처리 기법을 이용해 텍스트를 정형화된 데이터로 변환하고, 머신러닝 기법을 적용해 우리가 관심이 있는 어떤 사건을 예측하고자 하는 방법론

1.2 텍스트 마이닝 패러다임의 변화

1.2.1 카운트 기반의 문서 표현

  • 딥러닝 이전에는 문장에 있는 단어들의 개수를 세고, 주로 사용된 단어들을 이용해 그 문장의 내용을 파악하는 방법 사용

  • 카운트 기반의 문서표현은 문서를 사용된 단어들의 빈도로 표현하는 것

1.2.2 시퀀스 기반의 문서 표현

  • 카운트 기반 문서 표현의 문제점 해결
  • 사람이 글을 읽고 이해하는 것과 유사한 방법으로 텍스트의 문맥을 이해하고자 하는 방식
  • 각 단어를 먼저 벡터로 변환하고, 이러한 벡터의 연속된 나열 혹은 시퀀스로 문서를 표현
  • 문맥을 이해함으로써 더 정확하게 문장의 의미를 이해할 수 있다는 장점 가짐
  • 최근 딥러닝 기법이 발전하면서 시퀀스 기반의 문서 표현이 주류가 됨

용어 정리

  • 문장: 생각이나 감정을 말로 표현할 때 완결된 내용을 나타내는 최소 단위
  • 텍스트: 분석의 대상이 되는 문자열, 텍스트 마이닝에서 분석의 대상
  • 문서: 하나의 일관된 목적 혹은 주제를 가지고 쓰어진 글
  • 말뭉치(Corpus): 언어 연구를 위해 컴퓨터가 텍스트를 가공, 처리, 분석할 수 있는 형태로 모아 놓은 집합, 자연언어 연구를 위해 특정한 목적을 가지고 언어의 표본을 추출한 집합

1.3 텍스트 마이닝에 필요한 지식과 도구

1.3.1 자연어 처리 기법

  • 자연어 처리: 컴퓨터를 이용해 사람의 자연어를 분석하고 처리하는 기술
  • 텍스트 전처리를 위한 기법: 토큰화, 어간 추출, 표제어 추출, 품사 태깅
  • NLTK(Natural Language Tool-kit), KoNLPy 사용

1.3.2 통계학과 선형대수

  • 텍스트로부터 고품질의 정보를 추출하는데 다양한 통계적 분석방법 사용
  • 대용량의 데이터를 다루기 위해서 행렬을 이해해야 함
  • 행렬 연산과 관련된 파이썬 라이브러리 넘파이(Numpy)
  • CSV 형태로 된 텍스트 데이터를 쉽게 처리할 수 있는 판다스(Pandas)

1.3.3 시각화 기법

  • 전달하고자 하는 내용을 한눈에 쉽게 이해시키려고 사용
  • 텍스트 마이닝과 관련해서 막대그래프와 워드클라우드와 같은 기법이 많이 사용
  • 토픽 모델링도 각 토픽의 비중을 쉽게 나타내기 위해 시각화 기법 활용
  • 파이썬 라이브러리 중 많이 사용되는 맷플롯립(matplotlib), 시본(Seaborn)

1.3.4 머신러닝

  • 인공지능의 한 분야로 사람의 직접적인 지시 없이 컴퓨터가 학습을 통해서 문제를 해결하게 하는 알고리즘이나 통계적 모형에 관한 연구
  • 문제해결 방법을 코딩으로 구현하는 것이 아닌 공통적인 알고리즘을 데이터에 적용해 학습함으로써 주어진 데이터에 적합한 문제해결 방안을 생성하는 방식
  • 지도학습, 비지도학습, 강화학습으로 나뉨
  • 텍스트마이닝에서는 주로 지도학습의 분류 방법을 많이 사용
  • 파이썬 라이브러리 사이킷런(Scikit-learn) 사용

1.3.5 딥러닝

  • 머신러닝의 한 분류에 속하는 인공신경망에서 은닉층을 깊게 쌓은 신경망 구조를 활용해 학습하는 알고리즘
  • 자연어 처리 분야에서 초기에는 RNN, LSTM, CNN 등 비교적 단순하고 쉬운 방법론 사용
  • 현재는 트랜스포머에 기반한 BERT, GPT 등의 복잡한 기법 사용
  • 가장 많이 사용되는 파이썬 라이브러리는 케라스(Keras)와 파이토치(PyTorch)

 

 

 

 

※ 해당 내용은 <파이썬 텍스트 마이닝 완벽 가이드>의 내용을 토대로 학습하며 정리한 내용입니다.

반응형

'텍스트 마이닝' 카테고리의 다른 글

텍스트 전처리 (4)  (0) 2023.06.21
텍스트 전처리 (3)  (0) 2023.06.20
텍스트 전처리 (2)  (0) 2023.06.19
텍스트 전처리 (1)  (0) 2023.06.18
텍스트 마이닝 기초 (2)  (0) 2023.06.17