반응형
2.1 텍스트 전처리의 개념
2.1.1 왜 전처리가 필요한가?
- 문서 혹은 텍스트는 프로그래밍 언어 안에서 문자열로 표현
- 일반적으로 하나의 문장을 이해할 때는 사용된 단어들의 순차수열로 이해
- 컴퓨터에게 문장을 이해시키고 싶다면 하나의 문자열로 이루어진 문장 혹은 문서를 단어 단위로 나눈 후 이 단어들의 리스트 형태로 변환해주어야 함
- 텍스트를 전처리해두면 향후 문서 분류와 같은 작업을 용이하게 할 수 있음
2.1.2 전처리의 단계
- 텍스트 전처리: 주어진 텍스트에서 노이즈와 같이 불필요한 부분을 조거하고, 문장을 표준 단어들로 분리한 후, 각 단어의 품사를 파악하는 것
- 전처리의 단계
- (1) 정제: 분석에 불필요한 노이즈를 제거하는 작업
- (2) 토큰화: 주어진 텍스트를 원하는 단위로 나누는 작업
- (3) 정규화: 같은 의미를 가진 동일한 단어임에도 불구하고 다른 형태로 쓰여진 단어들을 통일시켜서 표준 단어로 만드는 작업
- (4) 품사 태깅: 앞서 토큰화한 단어에 대해 품사를 파악해 부착하는 것
2.1.3 실습 구성
- 텍스트 전처리는 영어와 한글에 대한 내용을 모두 포함
- 전반적인 실습과정은 영어를 기준으로 구성, 필요한 시점에 한국어에 대한 내용을 별도로 구성
- 영어에 대한 텍스트 전처리 실습은 NLTK 패키지
- 한글에 대한 텍스트 전처리는 KoNLPy 패키지
※ 해당 내용은 <파이썬 텍스트 마이닝 완벽 가이드>의 내용을 토대로 학습하며 정리한 내용입니다.
반응형
'텍스트 마이닝' 카테고리의 다른 글
텍스트 전처리 (4) (0) | 2023.06.21 |
---|---|
텍스트 전처리 (3) (0) | 2023.06.20 |
텍스트 전처리 (2) (0) | 2023.06.19 |
텍스트 마이닝 기초 (2) (0) | 2023.06.17 |
텍스트 마이닝 기초 (1) (0) | 2023.06.16 |