본문 바로가기

반응형

전체 글

(291)
텍스트 전처리 (4) 2.4 품사 태깅 2.4.1 품사의 이해 품사: 명사, 대명사, 수사, 조사, 동사, 형용사, 관형사, 부사, 감탄사와 같이 공통된 성질을 지닌 낱말끼리 모아 놓은 낱말의 갈래 공용 품사 태그 집합 펜 트리뱅크 태그 집합 2.4.2 NLTK를 활용한 품사 태킹 import nltk from nltk.tokenize import word_tokenize tokens = word_tokenize("Hello everyone. It's good to see you. Let's start our text mining class!") print(nltk.pos_tag(tokens)) ## [('Hello', 'NNP'), ('everyone', 'NN'), ('.', '.'), ('It', 'PRP'), ("'s..
텍스트 전처리 (3) 2.3 정규화 2.3.1 어간 추출 어형이 변형된 단어로부터 접사 등을 제거하고 그 단어의 어간을 분리해 내는 작업 어형: 단어의 형태 어간: 어형변화에서 변화하지 않는 부분 용언: 문장 안에서 서술하는 구실을 하는 동사와 형용사 영어에 대한 어간추출 알고리즘은 포터 스테머, 랭카스터 스테머 등이 있음 포터 스테머 from nltk.stem import PorterStemmer stemmer = PorterStemmer() print(stemmer.stem('cooking'), stemmer.stem('cookery'), stemmer.stem('cookbooks')) ## cook cookeri cookbook # 토큰화와 결합해 어간 추출 from nltk.tokenize import word_tok..
텍스트 전처리 (2) 2.2 토큰화 # 필요한 nltk 라이브러리 다운로드 import nltk nltk.download('punkt') nltk.download('webtext') nltk.download('wordnet') nltk.download('stopwords') nltk.download('averaged_perceptron_tagger') """ [nltk_data] Downloading package punkt to /root/nltk_data... [nltk_data] Unzipping tokenizers/punkt.zip. [nltk_data] Downloading package webtext to /root/nltk_data... [nltk_data] Unzipping corpora/webtext.zip...

반응형