본문 바로가기

한국어 텍스트 카운트 벡터

(1)

카운트 기반의 문서 표현 (3) 4.4 한국어 텍스트의 카운트 벡터 변환 4.4.1 데이터 다운로드 import pandas as pd df = pd.read_csv('daum_movie_review.csv') df.head(10) from sklearn.feature_extraction.text import CountVectorizer daum_cv = CountVectorizer(max_features=1000) daum_DTM = daum_cv.fit_transform(df.review) print(daum_cv.get_feature_names_out()[:100]) """ ['10점' '18' '1987' '1도' '1점' '1점도' '2시간' '2시간이' '2편' '5점' '6점' '7점' '8점' 'cg' 'cg가' 'cg는..

이전 1 다음

티스토리툴바