본문 바로가기

텍스트 마이닝

텍스트 전처리 (1)

반응형

2.1 텍스트 전처리의 개념

2.1.1 왜 전처리가 필요한가?

  • 문서 혹은 텍스트는 프로그래밍 언어 안에서 문자열로 표현
  • 일반적으로 하나의 문장을 이해할 때는 사용된 단어들의 순차수열로 이해
  • 컴퓨터에게 문장을 이해시키고 싶다면 하나의 문자열로 이루어진 문장 혹은 문서를 단어 단위로 나눈 후 이 단어들의 리스트 형태로 변환해주어야 함
  • 텍스트를 전처리해두면 향후 문서 분류와 같은 작업을 용이하게 할 수 있음

2.1.2 전처리의 단계

  • 텍스트 전처리: 주어진 텍스트에서 노이즈와 같이 불필요한 부분을 조거하고, 문장을 표준 단어들로 분리한 후, 각 단어의 품사를 파악하는 것
  • 전처리의 단계
    • (1) 정제: 분석에 불필요한 노이즈를 제거하는 작업
    • (2) 토큰화: 주어진 텍스트를 원하는 단위로 나누는 작업
    • (3) 정규화: 같은 의미를 가진 동일한 단어임에도 불구하고 다른 형태로 쓰여진 단어들을 통일시켜서 표준 단어로 만드는 작업
    • (4) 품사 태깅: 앞서 토큰화한 단어에 대해 품사를 파악해 부착하는 것

2.1.3 실습 구성

  • 텍스트 전처리는 영어와 한글에 대한 내용을 모두 포함
  • 전반적인 실습과정은 영어를 기준으로 구성, 필요한 시점에 한국어에 대한 내용을 별도로 구성
  • 영어에 대한 텍스트 전처리 실습은 NLTK 패키지
  • 한글에 대한 텍스트 전처리는 KoNLPy 패키지

 

 

 

 

※ 해당 내용은 <파이썬 텍스트 마이닝 완벽 가이드>의 내용을 토대로 학습하며 정리한 내용입니다.

반응형

'텍스트 마이닝' 카테고리의 다른 글

텍스트 전처리 (4)  (0) 2023.06.21
텍스트 전처리 (3)  (0) 2023.06.20
텍스트 전처리 (2)  (0) 2023.06.19
텍스트 마이닝 기초 (2)  (0) 2023.06.17
텍스트 마이닝 기초 (1)  (0) 2023.06.16