본문 바로가기

반응형

파이썬

(46)
인공지능 관련 도구의 소개 (3) 4-5 인공지능 언어, 파이썬 1991년 귀도 반 로섬이 발표한 인터프리터 언어 파이썬 패키지 사이킷런: 통계 및 기계 학습에 대한 기능을 제공하는 패키지 넘파이: 행렬 형태의 자료를 다루는 기능을 제공하며, 기계 학습에서 많이 사용 사이파이: 넘파이 기능을 포완해 선형 대수, 희소 행렬, 신호 및 이미지 처리, 급속 푸리에 변환 등과 같은 기능 제공 판다스: 넘파이, 사이파이를 보완하는 패키지, 데이터 분할, 정제, 추가, 병합, 변환 지원 맷플롯립: 배열로부터 고품질 그래프를 생성하고, 도표를 대화형으로 시각화하기 위한 기능 제공 NLTK: 텍스트를 분석하기 위한 기능을 제공, 한글의 형태소 분석 및 품사 태깅을 위해서는 KoNLPy가 별도로 준비되어 있어야 함 4-6 컴퓨터 비전 라이브러리, Ope..
16장 데이터를 추출하는 다양한 방법 (3) 16-3 df.iloc[] 이용하기 인덱스 번호를 지정해 행 추출하기 # 0행 추출 df.iloc[0] """ id 1 nclass 1 math 50 english 98 science 50 Name: 0, dtype: int64 """ # 2행 추출 df.iloc[2] """ id 3 nclass 1 math 45 english 86 science 78 Name: 2, dtype: int64 """ 행이 1개일 때 데이터 프레임 자료 구조 유지하기 # 시리즈로 추출 df.iloc[0] """ id 1 nclass 1 math 50 english 98 science 50 Name: 0, dtype: int64 """ # 데이터 프레임으로 추출 df.iloc[[0]] 여러 행 추출하기 # 1, 3, 5행 추..
16장 데이터를 추출하는 다양한 방법 (2) 16-2 df.loc[ ] 이용하기 인덱스 활용하기 df = pd.DataFrame({'var1' : [1, 2, 3], 'var2' : [4, 5, 6]}) df # 인덱스 문자열 지정하기 df = pd.DataFrame({'var1' : [1, 2, 3], 'var2' : [4, 5, 6]}, index = ['kim', 'lee', 'park']) df 인덱스 문자열을 지정해 행 추출하기 # kim 행 추출 df.loc['kim'] """ var1 1 var2 4 Name: kim, dtype: int64 """ 여러 행 추출하기 # kim, park 행 추출 df.loc[['kim', 'park']] 인덱스 문자열을 지정해 열 추출하기 # lee 행의 var1 열 추출 df.loc['lee', '..
16장 데이터를 추출하는 다양한 방법 (1) 16-1 [ ] 이용하기 조건을 충족하는 행 추출하기 import pandas as pd df_raw = pd.read_csv('exam.csv') df = df_raw.head(10) df # nclass 추출 df['nclass'] """ 0 1 1 1 2 1 3 1 4 2 5 2 6 2 7 2 8 3 9 3 Name: nclass, dtype: int64 """ # nclass가 1인지 확인 df['nclass'] == 1 """ 0 True 1 True 2 True 3 True 4 False 5 False 6 False 7 False 8 False 9 False Name: nclass, dtype: bool """ # nclass가 1이면 추출 df[df['nclass'] == 1] # 수학 점수..
15장 머신러닝을 이용한 예측 분석 (2) 15-2 소득 예측 모델 만들기 의사결정나무 모델 만들기 모델 설정하기 모델 만들기 from sklearn import tree clf = tree.DecisionTreeClassifier(random_state = 1234, # 난수 고정 max_depth = 3) # 나무 깊이 train_x = df_train.drop(columns = 'income') # 예측 변수 추출 train_y = df_train['income'] # 타겟 변수 추출 model = clf.fit(X = train_x, y = train_y) # 모델 만들기 모델 구조 살펴보기 import matplotlib.pyplot as plt plt.rcParams.update({'figure.dpi' : '100', # 그래프 크기..
15장 머신러닝을 이용한 예측 분석 (1) 15-1 머신러닝 모델 알아보기 머신러닝 모델 만들기 = 함수 만들기 예측 변수와 타겟 변수 예측 변수(predictor variable): 예측하는데 활용하는 변수 또는 모델에 입력하는 값 타겟 변수(target variable): 예측하고자 하는 변수 또는 모델이 출력하는 값 머신 러닝 모델을 이용해 미래 예측 의사결정나무 모델: 주어진 질문에 yes/no 로 답하면 마지막에 결론을 얻는 구조 1단계: 타겟 변수를 가장 잘 분리하는 예측 변수 선택 2단계: 첫 번째 질문의 답변에 따라 데이터를 두 노드로 분할 3단계: 각 노드에서 타겟 변수를 가장 잘 분리하는 에측 변수 선택 4단계: 노드가 완벽하게 분리될 때까지 반복 의사결정나무 모델의 특징 노드마다 분할 횟수가 다음 노드마다 선택되는 예측 변수가..
14장 통계 분석 기법을 이용한 가설 검정 (2) 14-3 상관분석 - 두 변수의 관계 분석하기 상관분석(correlation analysis): 두 연속 변수가 서로 관련이 있는지 검정하는 통계 분석 기법 실업자 수와 개인 소비 지출의 상관관계 1. 상관계수 구하기 2. 유의확률 구하기 # economics 데이터 불러오기 economics = pd.read_csv('economics.csv') # 상관행렬 만들기 economics[['unemploy', 'pce']].corr() # 상관분석 stats.pearsonr(economics['unemploy'], economics['pce']) ##출력: PearsonRResult(statistic=0.614517614193208, pvalue=6.773527303289964e-61) 상관행렬 히트맵 만..
14장 통계 분석 기법을 이용한 가설 검정 (1) 14-1 가설 검정이란? 기술 통계와 추론 통계 기술 통계(descriptive statistics): 데이터를 요약해 설명하는 통계 분석 기법 추론 통계(inferential statistics): 단순히 숫자를 요약하는 것을 넘어 어떤 값이 발생할 확률을 계산하는 통계 분석 기법 통계적 가설 검정 통계적 가설 검정(statistical hypothesis test): 유의 확률을 이용해 가설을 검정하는 방법 유의확률(significance probability, p-value): 실제로는 집단 간 차이가 없는데 우연히 차이가 있는 데이터가 추출될 확률 14-2 t 검정 -두 집단의 평균 비교하기 t 검정: 두 집단의 평균에 통계적으로 유의한 차이가 있는지 알아볼 때 사용하는 통계 분석 기법 compa..
12장 인터랙티브 그래프 12-1 인터랙티브 그래프 만들기 인터랙티브 그래프(interactive graph): 마우스 움직임에 반응하며 실시간으로 모양이 변하는 그래프 산점도 만들기 패키지 준비하기 !pip install plotly !pip install jupter-dash 산점도 만들기 인터랙티브 기능 활용하기 import pandas as pd mpg = pd.read_csv('mpg.csv') # 산점도 만들기 import plotly.express as px px.scatter(data_frame = mpg, x = 'cty', y = 'hwy', color = 'drv') 막대 그래프 만들기 # 자동차 종류별 빈도 구하기 df = mpg.groupby('category', as_index = False) \ .ag..
11장 지도 시각화 (2) 11-2 서울시 동별 외국인 인구 단계 구분도 만들기 서울시 동별 외국인 인구 단계 구분도 만들기 1. 서울시 동 경계 지도 데이터 준비하기 2. 서울시 동별 외국인 인구 데이터 준비하기 3. 단계 구분도 만들기 4. 구 경계선 추가하기 import json geo_seoul = json.load(open('EMD_Seoul.geojson', encoding = 'UTF-8')) # 행정 구역 코드 출력 geo_seoul['features'][0]['properties'] """ {'BASE_DATE': '20200630', 'ADM_DR_CD': '1101053', 'ADM_DR_NM': '사직동', 'OBJECTID': '1'} """ # 위도, 경도 좌표 출력 geo_seoul['features']..

반응형