본문 바로가기

반응형

전체 글

(291)
BOW 기반의 문서 분류 (1) 5.1 20 뉴스그룹 데이터 준비 빛 특성 추출 20 뉴스그룹 데이터셋: 텍스트 마이닝에서 문서 분류의 성능을 측정하기 위해 가장 많이 사용되는 데이터셋 중 하나 5.1.1 데이터셋 확인 및 분리 사이킷런 20 뉴스그룹 데이터 특징 categories 매개변수를 이용해 20개의 topic 중에서 원하는 토픽을 선택할 수 있다. remove로 필요 없는 데이터를 삭제할 수 있다 각 데이터셋 내에서 .data는 텍스트의 내용을, .target은 숫자로 표시된 라벨을 가져오는 데 사용된다 from sklearn.datasets import fetch_20newsgroups #20개의 토픽 중 선택하고자 하는 토픽을 리스트로 생성 categories = ['alt.atheism', 'talk.religion.m..
카운트 기반의 문서 표현 (5) 4.6 TF-IDF로 성능을 높여보자 TF-IDF: 단어빈도-역문서 빈도 카운트 대신 단어의 빈도에 그 단어가 출현한 문서 수의 역수를 곱하는 것 from sklearn.feature_extraction.text import TfidfTransformer transformer = TfidfTransformer() transformer reviews_tfidf = transformer.fit_transform(reviews_cv) print('#shape of tfidf matrix:', reviews_tfidf.shape) #TF-IDF 행렬의 모양과 카운트 행렬의 모양이 일치하는 것을 확인 #첫 리뷰의 카운트 벡터 중 앞 20개 값 출력 print('#20 count score of the first ..
카운트 기반의 문서 표현 (4) 4.5 카운트 벡터의 활용 문서로부터 특성을 추출하는 하나의 방법 이렇게 추출된 벡터는 머신러닝 기법을 적용하기 위한 입력으로 사용되어 문서 분류로부터 시작해 다양한 분야에 활용 가능 이전에 이 벡터는 문서 간의 유사도를 측정하는 데에 사용 코사인 유사도: 두 벡터가 이루는 각도의 코사인값으로 정의되는 유사도 %matplotlib inline import matplotlib.pyplot as plt import matplotlib as mpl # 그래프에서 마이너스 폰트 깨지는 문제에 대한 대처 mpl.rcParams['axes.unicode_minus'] = False import numpy as np x = np.arange(0,2*np.pi,0.1) # start,stop,step y = np.co..

반응형