20뉴스그룹 데이터 (1) 썸네일형 리스트형 BOW 기반의 문서 분류 (1) 5.1 20 뉴스그룹 데이터 준비 빛 특성 추출 20 뉴스그룹 데이터셋: 텍스트 마이닝에서 문서 분류의 성능을 측정하기 위해 가장 많이 사용되는 데이터셋 중 하나 5.1.1 데이터셋 확인 및 분리 사이킷런 20 뉴스그룹 데이터 특징 categories 매개변수를 이용해 20개의 topic 중에서 원하는 토픽을 선택할 수 있다. remove로 필요 없는 데이터를 삭제할 수 있다 각 데이터셋 내에서 .data는 텍스트의 내용을, .target은 숫자로 표시된 라벨을 가져오는 데 사용된다 from sklearn.datasets import fetch_20newsgroups #20개의 토픽 중 선택하고자 하는 토픽을 리스트로 생성 categories = ['alt.atheism', 'talk.religion.m.. 이전 1 다음