본문 바로가기

반응형

텍스트 전처리

(4)
텍스트 전처리 (4) 2.4 품사 태깅 2.4.1 품사의 이해 품사: 명사, 대명사, 수사, 조사, 동사, 형용사, 관형사, 부사, 감탄사와 같이 공통된 성질을 지닌 낱말끼리 모아 놓은 낱말의 갈래 공용 품사 태그 집합 펜 트리뱅크 태그 집합 2.4.2 NLTK를 활용한 품사 태킹 import nltk from nltk.tokenize import word_tokenize tokens = word_tokenize("Hello everyone. It's good to see you. Let's start our text mining class!") print(nltk.pos_tag(tokens)) ## [('Hello', 'NNP'), ('everyone', 'NN'), ('.', '.'), ('It', 'PRP'), ("'s..
텍스트 전처리 (3) 2.3 정규화 2.3.1 어간 추출 어형이 변형된 단어로부터 접사 등을 제거하고 그 단어의 어간을 분리해 내는 작업 어형: 단어의 형태 어간: 어형변화에서 변화하지 않는 부분 용언: 문장 안에서 서술하는 구실을 하는 동사와 형용사 영어에 대한 어간추출 알고리즘은 포터 스테머, 랭카스터 스테머 등이 있음 포터 스테머 from nltk.stem import PorterStemmer stemmer = PorterStemmer() print(stemmer.stem('cooking'), stemmer.stem('cookery'), stemmer.stem('cookbooks')) ## cook cookeri cookbook # 토큰화와 결합해 어간 추출 from nltk.tokenize import word_tok..
텍스트 전처리 (2) 2.2 토큰화 # 필요한 nltk 라이브러리 다운로드 import nltk nltk.download('punkt') nltk.download('webtext') nltk.download('wordnet') nltk.download('stopwords') nltk.download('averaged_perceptron_tagger') """ [nltk_data] Downloading package punkt to /root/nltk_data... [nltk_data] Unzipping tokenizers/punkt.zip. [nltk_data] Downloading package webtext to /root/nltk_data... [nltk_data] Unzipping corpora/webtext.zip...
텍스트 전처리 (1) 2.1 텍스트 전처리의 개념 2.1.1 왜 전처리가 필요한가? 문서 혹은 텍스트는 프로그래밍 언어 안에서 문자열로 표현 일반적으로 하나의 문장을 이해할 때는 사용된 단어들의 순차수열로 이해 컴퓨터에게 문장을 이해시키고 싶다면 하나의 문자열로 이루어진 문장 혹은 문서를 단어 단위로 나눈 후 이 단어들의 리스트 형태로 변환해주어야 함 텍스트를 전처리해두면 향후 문서 분류와 같은 작업을 용이하게 할 수 있음 2.1.2 전처리의 단계 텍스트 전처리: 주어진 텍스트에서 노이즈와 같이 불필요한 부분을 조거하고, 문장을 표준 단어들로 분리한 후, 각 단어의 품사를 파악하는 것 전처리의 단계 (1) 정제: 분석에 불필요한 노이즈를 제거하는 작업 (2) 토큰화: 주어진 텍스트를 원하는 단위로 나누는 작업 (3) 정규화:..

반응형