본문 바로가기

반응형

전체 글

(291)
그래프와 워드 클라우드 (3) 3.3 한국어 문서에 대한 그래프와 워드 클라우드 텍스트를 읽어오면 반드시 형태와 내용을 살펴보는 습관을 들이는 것이 좋음 KoNLPy는 형태소 분석기도 제공하지만 실습을 위한 말뭉치도 제공 from konlpy.corpus import kolaw const_doc = kolaw.open('constitution.txt').read() print(type(const_doc)) #가져온 데이터의 type을 확인 print(len(const_doc)) print(const_doc[:600]) """ 18884 대한민국헌법 유구한 역사와 전통에 빛나는 우리 대한국민은 3·1운동으로 건립된 대한민국임시정부의 법통과 불의에 항거한 4·19민주이념을 계승하고, 조국의 민주개혁과 평화적 통일의 사명에 입각하여 정의·..
그래프와 워드 클라우드 (2) 3.2 워드 클라우드로 내용을 한눈에 보기 워드 클라우드: 텍스트 분석 결과를 보여주는 시각화 도구 중 가장 많이 활용되는 방법 !pip install wordcloud from wordcloud import WordCloud # Generate a word cloud image wordcloud = WordCloud().generate(doc_alice) plt.axis("off") plt.imshow(wordcloud, interpolation='bilinear') #이미지를 출력 plt.show() wordcloud.to_array().shape ## (200, 400, 3) wordcloud = WordCloud(max_font_size=60).generate_from_frequencies(ali..
그래프와 워드 클라우드 (1) 3.1 단어 빈도 그래프 - 많이 쓰인 단어는? 단어 빈도 그래프를 그리기 위해서 먼저 단어의 빈도를 구해야 함 어간 추출: 스테밍 저작권이 만료된 영어 소설을 제공하는 구텐베르크 프로젝트(Project Gutenberg)에서 데이터를 받아 텍스트 마이닝 연습 가능 import nltk nltk.download('gutenberg') from nltk.corpus import gutenberg file_names = gutenberg.fileids() #파일 제목을 읽어온다. print(file_names) """ [nltk_data] Downloading package gutenberg to /root/nltk_data... [nltk_data] Unzipping corpora/gutenberg.zip..

반응형