본문 바로가기

반응형

전체 글

(291)
카운트 기반의 문서 표현 (3) 4.4 한국어 텍스트의 카운트 벡터 변환 4.4.1 데이터 다운로드 import pandas as pd df = pd.read_csv('daum_movie_review.csv') df.head(10) from sklearn.feature_extraction.text import CountVectorizer daum_cv = CountVectorizer(max_features=1000) daum_DTM = daum_cv.fit_transform(df.review) print(daum_cv.get_feature_names_out()[:100]) """ ['10점' '18' '1987' '1도' '1점' '1점도' '2시간' '2시간이' '2편' '5점' '6점' '7점' '8점' 'cg' 'cg가' 'cg는..
카운트 기반의 문서 표현 (2) 4.3 사이킷런으로 카운트 벡터 생성 CountVectorizer의 기능 # data 준비, movie_reviews.raw()를 사용하여 raw text를 추출 reviews = [movie_reviews.raw(fileid) for fileid in movie_reviews.fileids()] from sklearn.feature_extraction.text import CountVectorizer #cv = CountVectorizer() #모든 매개변수에 디폴트 값을 사용하는 경우 #앞에서 생성한 word_features를 이용하여 특성 집합을 지정하는 경우 cv = CountVectorizer(vocabulary=word_features) #cv = CountVectorizer(max_featu..
카운트 기반의 문서 표현 (1) 4.1 카운트 기반 문서 표현의 개념 문서의 의미를 반영해 벡터를 만드는 과정 텍스트 마이닝에서는 텍스트의 특성을 정의하고 그 값으로 텍스트를 구분 카운트 기반의 문서표현에서는 텍스트의 특성을 단어로 표현하고, 특성이 갖는 값은 그 단어가 텍스트에서 나타나는 횟수로 표현 텍스트는 정의한 특성에 대한 특성 값의 집합으로 변환 카운트 기반의 문서표현에서 단어가 특성, 단어의 빈도가 특성의 값 4.2 BOW 기반의 카운트 벡터 생성 NLTK가 제공하는 영화 리뷰 예시 import nltk nltk.download('movie_reviews') nltk.download('punkt') nltk.download('stopwords') """ [nltk_data] Downloading package movie_re..

반응형