본문 바로가기

반응형

텍스트 마이닝

(3)
10장 텍스트 마이닝 (3) 10-2 기사 댓글 텍스트 마이닝 가장 많이 사용된 단어 알아보기 1. 기사 댓글 불러오기 # 데이터 불러오기 df = pd.read_csv('news_comment_BTS.csv', encoding = 'UTF-8') # 데이터 살펴보기 df.info() """ RangeIndex: 1200 entries, 0 to 1199 Data columns (total 5 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 reg_time 1200 non-null object 1 reply 1200 non-null object 2 press 1200 non-null object 3 title 1200 non-null object 4..
10장 텍스트 마이닝 (2) 10-1 대통령 연설문 텍스트 마이닝 워드 클라우드 만들기 워드 클라우드(word cloud): 단어의 빈도를 구름 모양으로 표현한 그래프 1. wordcloud 패키지 설치하기 !pip install wordcloud 2. 한글 폰트 설정하기 font = 'DoHyeon-Regular.ttf' 3. 단어와 빈도를 담은 딕셔너리 만들기 # 데이터 프레임을 딕셔너리로 변환 dic_word = df_word.set_index('word').to_dict()['n'] dic_word """ {'나라': 19, '일자리': 19, '국민': 18, '우리': 17, '대통령': 12, '대한민국': 11, '확대': 11, '정치': 10, '우리나라': 10, '사회': 9, '사람': 9, '성장': 9, ..
10장 텍스트 마이닝 (1) 10-1 대통령 연설문 텍스트 마이닝 텍스트 마이닝(Text Mining): 문자로 된 데이터에서 가치 있는 정보를 얻어 내는 분석 기법 KoNLPy 패키지 설치하기 1. 자바 설치하기 2. KoNLPy 의존성 패키지 설치하기 3. KoNLPy 설치하기 !pip install jpype1 !pip install konlpy 가장 많이 사용된 단어 알아보기 1. 연설문 불러오기 moon = open('speech_moon.txt', encoding = 'UTF-8').read() moon """ 정권교체 하겠습니다!\n 정치교체 하겠습니다!\n 시대교체 하겠습니다!\n \n ‘불비불명(不飛不鳴)’이라는 고사가 있습니다. 남쪽 언덕 나뭇가지에 앉아, 3년 동안 날지도 울지도 않는 새. 그러나 그 새는 한번 ..

반응형