본문 바로가기

반응형

전체 글

(291)
16장 데이터를 추출하는 다양한 방법 (1) 16-1 [ ] 이용하기 조건을 충족하는 행 추출하기 import pandas as pd df_raw = pd.read_csv('exam.csv') df = df_raw.head(10) df # nclass 추출 df['nclass'] """ 0 1 1 1 2 1 3 1 4 2 5 2 6 2 7 2 8 3 9 3 Name: nclass, dtype: int64 """ # nclass가 1인지 확인 df['nclass'] == 1 """ 0 True 1 True 2 True 3 True 4 False 5 False 6 False 7 False 8 False 9 False Name: nclass, dtype: bool """ # nclass가 1이면 추출 df[df['nclass'] == 1] # 수학 점수..
15장 머신러닝을 이용한 예측 분석 (2) 15-2 소득 예측 모델 만들기 의사결정나무 모델 만들기 모델 설정하기 모델 만들기 from sklearn import tree clf = tree.DecisionTreeClassifier(random_state = 1234, # 난수 고정 max_depth = 3) # 나무 깊이 train_x = df_train.drop(columns = 'income') # 예측 변수 추출 train_y = df_train['income'] # 타겟 변수 추출 model = clf.fit(X = train_x, y = train_y) # 모델 만들기 모델 구조 살펴보기 import matplotlib.pyplot as plt plt.rcParams.update({'figure.dpi' : '100', # 그래프 크기..
15장 머신러닝을 이용한 예측 분석 (1) 15-1 머신러닝 모델 알아보기 머신러닝 모델 만들기 = 함수 만들기 예측 변수와 타겟 변수 예측 변수(predictor variable): 예측하는데 활용하는 변수 또는 모델에 입력하는 값 타겟 변수(target variable): 예측하고자 하는 변수 또는 모델이 출력하는 값 머신 러닝 모델을 이용해 미래 예측 의사결정나무 모델: 주어진 질문에 yes/no 로 답하면 마지막에 결론을 얻는 구조 1단계: 타겟 변수를 가장 잘 분리하는 예측 변수 선택 2단계: 첫 번째 질문의 답변에 따라 데이터를 두 노드로 분할 3단계: 각 노드에서 타겟 변수를 가장 잘 분리하는 에측 변수 선택 4단계: 노드가 완벽하게 분리될 때까지 반복 의사결정나무 모델의 특징 노드마다 분할 횟수가 다음 노드마다 선택되는 예측 변수가..

반응형