본문 바로가기

반응형

전체 글

(291)
10장 텍스트 마이닝 (2) 10-1 대통령 연설문 텍스트 마이닝 워드 클라우드 만들기 워드 클라우드(word cloud): 단어의 빈도를 구름 모양으로 표현한 그래프 1. wordcloud 패키지 설치하기 !pip install wordcloud 2. 한글 폰트 설정하기 font = 'DoHyeon-Regular.ttf' 3. 단어와 빈도를 담은 딕셔너리 만들기 # 데이터 프레임을 딕셔너리로 변환 dic_word = df_word.set_index('word').to_dict()['n'] dic_word """ {'나라': 19, '일자리': 19, '국민': 18, '우리': 17, '대통령': 12, '대한민국': 11, '확대': 11, '정치': 10, '우리나라': 10, '사회': 9, '사람': 9, '성장': 9, ..
10장 텍스트 마이닝 (1) 10-1 대통령 연설문 텍스트 마이닝 텍스트 마이닝(Text Mining): 문자로 된 데이터에서 가치 있는 정보를 얻어 내는 분석 기법 KoNLPy 패키지 설치하기 1. 자바 설치하기 2. KoNLPy 의존성 패키지 설치하기 3. KoNLPy 설치하기 !pip install jpype1 !pip install konlpy 가장 많이 사용된 단어 알아보기 1. 연설문 불러오기 moon = open('speech_moon.txt', encoding = 'UTF-8').read() moon """ 정권교체 하겠습니다!\n 정치교체 하겠습니다!\n 시대교체 하겠습니다!\n \n ‘불비불명(不飛不鳴)’이라는 고사가 있습니다. 남쪽 언덕 나뭇가지에 앉아, 3년 동안 날지도 울지도 않는 새. 그러나 그 새는 한번 ..
9장 데이터 분석 프로젝트 - 한국인의 삶을 파악하라! (9) 9-9 지역별 연령대 비율 - 어느 지역에 노년층이 많을까? 1단계 변수 검토 및 전처리 지역 연령대 2단계 변수 간 관계 분석 지역별 연령대 비율표 만들기 그래프 만들기 지역 변수 검토 및 전처리하기 1. 변수 검토하기 2. 전처리하기 welfare['code_region'].dtypes # 변수 타입 출력 ##출력: dtype('float64') welfare['code_region'].value_counts() # 빈도 구하기 """ 2.0 3246 7.0 2466 3.0 2448 1.0 2002 4.0 1728 5.0 1391 6.0 1137 Name: code_region, dtype: int64 """ # 지역 코드 목록 만들기 list_region = pd.DataFrame({'code_re..

반응형