본문 바로가기

한국어 문서 분류

(2)

BOW 기반의 문서 분류 (8) 5.8 한국어 문서의 분류 5.8.2 성능을 개선하기 위한 노력 tfidf = TfidfVectorizer(tokenizer=okt.morphs, max_features=2000, min_df=5, max_df=0.5) # 명사 대신 모든 형태소를 사용 X_train_tfidf = tfidf.fit_transform(X_train) X_test_tfidf = tfidf.transform(X_test) clf = LogisticRegression(max_iter=1000) # 충분한 학습을 위해 max_iter를 1,000으로 설정, 기본은 100 clf.fit(X_train_tfidf, y_train) print('#Train set score: {:.3f}'.format(clf.score(X_train..

BOW 기반의 문서 분류 (7) 5.8 한국어 문서의 분류 5.8.1 다음 영화 리뷰에 대한 영화 제목 예 import pandas as pd df = pd.read_csv('/content/daum_movie_review.csv') df.head(5) df.title.value_counts() """ 신과함께 4947 택시운전사 2322 인피니티 워 2042 범죄도시 1939 곤지암 1547 라라랜드 1150 코코 778 Name: title, dtype: int64 """ from sklearn.model_selection import train_test_split # split data and labels into a training and a test set X_train, X_test, y_train, y_test = trai..

이전 1 다음

티스토리툴바