본문 바로가기

반응형

분류 전체보기

(291)
16장 데이터를 추출하는 다양한 방법 (2) 16-2 df.loc[ ] 이용하기 인덱스 활용하기 df = pd.DataFrame({'var1' : [1, 2, 3], 'var2' : [4, 5, 6]}) df # 인덱스 문자열 지정하기 df = pd.DataFrame({'var1' : [1, 2, 3], 'var2' : [4, 5, 6]}, index = ['kim', 'lee', 'park']) df 인덱스 문자열을 지정해 행 추출하기 # kim 행 추출 df.loc['kim'] """ var1 1 var2 4 Name: kim, dtype: int64 """ 여러 행 추출하기 # kim, park 행 추출 df.loc[['kim', 'park']] 인덱스 문자열을 지정해 열 추출하기 # lee 행의 var1 열 추출 df.loc['lee', '..
16장 데이터를 추출하는 다양한 방법 (1) 16-1 [ ] 이용하기 조건을 충족하는 행 추출하기 import pandas as pd df_raw = pd.read_csv('exam.csv') df = df_raw.head(10) df # nclass 추출 df['nclass'] """ 0 1 1 1 2 1 3 1 4 2 5 2 6 2 7 2 8 3 9 3 Name: nclass, dtype: int64 """ # nclass가 1인지 확인 df['nclass'] == 1 """ 0 True 1 True 2 True 3 True 4 False 5 False 6 False 7 False 8 False 9 False Name: nclass, dtype: bool """ # nclass가 1이면 추출 df[df['nclass'] == 1] # 수학 점수..
15장 머신러닝을 이용한 예측 분석 (2) 15-2 소득 예측 모델 만들기 의사결정나무 모델 만들기 모델 설정하기 모델 만들기 from sklearn import tree clf = tree.DecisionTreeClassifier(random_state = 1234, # 난수 고정 max_depth = 3) # 나무 깊이 train_x = df_train.drop(columns = 'income') # 예측 변수 추출 train_y = df_train['income'] # 타겟 변수 추출 model = clf.fit(X = train_x, y = train_y) # 모델 만들기 모델 구조 살펴보기 import matplotlib.pyplot as plt plt.rcParams.update({'figure.dpi' : '100', # 그래프 크기..
15장 머신러닝을 이용한 예측 분석 (1) 15-1 머신러닝 모델 알아보기 머신러닝 모델 만들기 = 함수 만들기 예측 변수와 타겟 변수 예측 변수(predictor variable): 예측하는데 활용하는 변수 또는 모델에 입력하는 값 타겟 변수(target variable): 예측하고자 하는 변수 또는 모델이 출력하는 값 머신 러닝 모델을 이용해 미래 예측 의사결정나무 모델: 주어진 질문에 yes/no 로 답하면 마지막에 결론을 얻는 구조 1단계: 타겟 변수를 가장 잘 분리하는 예측 변수 선택 2단계: 첫 번째 질문의 답변에 따라 데이터를 두 노드로 분할 3단계: 각 노드에서 타겟 변수를 가장 잘 분리하는 에측 변수 선택 4단계: 노드가 완벽하게 분리될 때까지 반복 의사결정나무 모델의 특징 노드마다 분할 횟수가 다음 노드마다 선택되는 예측 변수가..
14장 통계 분석 기법을 이용한 가설 검정 (2) 14-3 상관분석 - 두 변수의 관계 분석하기 상관분석(correlation analysis): 두 연속 변수가 서로 관련이 있는지 검정하는 통계 분석 기법 실업자 수와 개인 소비 지출의 상관관계 1. 상관계수 구하기 2. 유의확률 구하기 # economics 데이터 불러오기 economics = pd.read_csv('economics.csv') # 상관행렬 만들기 economics[['unemploy', 'pce']].corr() # 상관분석 stats.pearsonr(economics['unemploy'], economics['pce']) ##출력: PearsonRResult(statistic=0.614517614193208, pvalue=6.773527303289964e-61) 상관행렬 히트맵 만..
14장 통계 분석 기법을 이용한 가설 검정 (1) 14-1 가설 검정이란? 기술 통계와 추론 통계 기술 통계(descriptive statistics): 데이터를 요약해 설명하는 통계 분석 기법 추론 통계(inferential statistics): 단순히 숫자를 요약하는 것을 넘어 어떤 값이 발생할 확률을 계산하는 통계 분석 기법 통계적 가설 검정 통계적 가설 검정(statistical hypothesis test): 유의 확률을 이용해 가설을 검정하는 방법 유의확률(significance probability, p-value): 실제로는 집단 간 차이가 없는데 우연히 차이가 있는 데이터가 추출될 확률 14-2 t 검정 -두 집단의 평균 비교하기 t 검정: 두 집단의 평균에 통계적으로 유의한 차이가 있는지 알아볼 때 사용하는 통계 분석 기법 compa..
12장 인터랙티브 그래프 12-1 인터랙티브 그래프 만들기 인터랙티브 그래프(interactive graph): 마우스 움직임에 반응하며 실시간으로 모양이 변하는 그래프 산점도 만들기 패키지 준비하기 !pip install plotly !pip install jupter-dash 산점도 만들기 인터랙티브 기능 활용하기 import pandas as pd mpg = pd.read_csv('mpg.csv') # 산점도 만들기 import plotly.express as px px.scatter(data_frame = mpg, x = 'cty', y = 'hwy', color = 'drv') 막대 그래프 만들기 # 자동차 종류별 빈도 구하기 df = mpg.groupby('category', as_index = False) \ .ag..
11장 지도 시각화 (2) 11-2 서울시 동별 외국인 인구 단계 구분도 만들기 서울시 동별 외국인 인구 단계 구분도 만들기 1. 서울시 동 경계 지도 데이터 준비하기 2. 서울시 동별 외국인 인구 데이터 준비하기 3. 단계 구분도 만들기 4. 구 경계선 추가하기 import json geo_seoul = json.load(open('EMD_Seoul.geojson', encoding = 'UTF-8')) # 행정 구역 코드 출력 geo_seoul['features'][0]['properties'] """ {'BASE_DATE': '20200630', 'ADM_DR_CD': '1101053', 'ADM_DR_NM': '사직동', 'OBJECTID': '1'} """ # 위도, 경도 좌표 출력 geo_seoul['features']..
11장 지도 시각화 (1) 11-1 시군구별 인구 단계 구분도 만들기 단계 구분도(choropleth map): 지역별 통계치를 색깔 차이로 표현한 지도 시군구별 인구 단계 구분도 만들기 1. 시군구 경계 지도 데이터 준비하기 2. 시군구별 인구 데이터 준비하기 3. 단계 구분도 만들기 (1) 배경 지도 만들기 (2) 단계 구분도 만들기 (3) 계급 구간 정하기 (4) 디자인 수정하기 import json geo = json.load(open('SIG.geojson', encoding = 'UTF-8')) # 행정 구역 코드 출력 geo['features'][0]['properties'] ##출력: {'SIG_CD': '42110', 'SIG_ENG_NM': 'Chuncheon-si', 'SIG_KOR_NM': '춘천시'} # 위..
10장 텍스트 마이닝 (3) 10-2 기사 댓글 텍스트 마이닝 가장 많이 사용된 단어 알아보기 1. 기사 댓글 불러오기 # 데이터 불러오기 df = pd.read_csv('news_comment_BTS.csv', encoding = 'UTF-8') # 데이터 살펴보기 df.info() """ RangeIndex: 1200 entries, 0 to 1199 Data columns (total 5 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 reg_time 1200 non-null object 1 reply 1200 non-null object 2 press 1200 non-null object 3 title 1200 non-null object 4..

반응형