본문 바로가기

반응형

전체 글

(291)
BOW 기반의 문서 분류 (4) 5.4 로지스틱 회귀분석을 이용한 문서 분류 5.4.2 라쏘 회귀를 이용한 특성 선택 라쏘 회귀: 특성의 계수에 대해 정규화를 하지만 L1 정규화 사용 lasso_clf = LogisticRegression(penalty='l1', solver='liblinear', C=1) # Lasso는 동일한 LogisticRegression을 사용하면서 매개변수로 지정 lasso_clf.fit(X_train_tfidf, y_train) # train data로 학습 print('#Train set score: {:.3f}'.format(lasso_clf.score(X_train_tfidf, y_train))) print('#Test set score: {:.3f}'.format(lasso_clf.score(X_t..
BOW 기반의 문서 분류 (3) 5.4 로지스틱 회귀분석을 이용한 문서 분류 from sklearn.linear_model import LogisticRegression #sklearn이 제공하는 logistic regression을 사용 #count vector에 대해 regression을 해서 NB와 비교 LR_clf = LogisticRegression() #분류기 선언 LR_clf.fit(X_train_tfidf, y_train) # train data를 이용하여 분류기를 학습 print('Train set score: {:.3f}'.format(LR_clf.score(X_train_tfidf, y_train))) # train data에 대한 예측정확도 print('Test set score: {:.3f}'.format(LR_..
BOW 기반의 문서 분류 (2) 5.2 머신러닝과 문서 분류 과정에 대한 이해 머신러닝을 이용한 문서 분류의 과정 데이터 정제, 전처리 데이터 분리 머신러닝 학습 평가 최종모형 도출 예측 5.3 나이브 베이즈 분류기를 이용한 문서 분류 사전 확률: 특성에 대한 정보가 없을 때 학습 데이터셋의 분포를 통해 확인한 확률 from sklearn.naive_bayes import MultinomialNB #sklearn이 제공하는 MultinomialNB 를 사용 NB_clf = MultinomialNB() # 분류기 선언 NB_clf.fit(X_train_cv, y_train) #train set을 이용하여 분류기(classifier)를 학습 print('Train set score: {:.3f}'.format(NB_clf.score(X_t..

반응형