본문 바로가기

카운트기반

(1)

BOW 기반의 문서 분류 (6) 5.7 카운트 기반의 문제점과 N-gram을 이용한 보완 5.7.1 통계로는 알 수 없는 문맥 정보 BOW는 단어들이 쓰여진 순서에 따른 문맥 정보를 이용할 수 없음 BOW는 단어들의 순서를 무시하고, 단어가 사용된 횟수를 기반으로 문서에 대한 벡터 만듬 5.7.2 N-gram의 이해 N-gram: n개의 연속적인 단어들의 나열 하나의 토큰이 두개 이상의 단어로 구성될 수 있음 5.7.3 N-gram을 이용한 문서 분류 from nltk.corpus import stopwords from sklearn.feature_extraction.text import TfidfVectorizer from nltk.corpus import stopwords cachedStopWords = stopwords.words..

이전 1 다음

티스토리툴바