7장 데이터 정제 - 빠진 데이터, 이상한 데이터 제거하기 (2)
7-2 이상한 데이터를 찾아라! - 이상치 정제하기 이상치(anomaly): 정상 범위에서 크게 벗어난 값 이상치 제거하기-존재할 수 없는 값 df = pd.DataFrame({'sex' : [1,2,1,3,2,1], 'score' : [5,4,3,4,2,6]}) df 이상치 확인하기 df['sex'].value_counts().sort_index() """ 1 3 2 2 3 1 Name: sex, dtype: int64 """ df['score'].value_counts().sort_index() """ 2 1 3 1 4 2 5 1 6 1 Name: score, dtype: int64 """ 결측 처리하기 df['sex'] = np.where(df['sex'] == 3, np.nan, df['sex']..
7장 데이터 정제 - 빠진 데이터, 이상한 데이터 제거하기 (1)
7-1 빠진 데이터를 찾아라! - 결측치 정제하기 결측치(missing value) ckwrl 결측치 만들기: NumPy 패키지의 np.nan 입력 import pandas as pd import numpy as np df = pd.DataFrame({'sex' : ['M', 'F', np.nan, 'M', 'F'], 'score' : [5,4,3,4, np.nan]}) df df['score'] + 1 """ 0 6.0 1 5.0 2 4.0 3 5.0 4 NaN Name: score, dtype: float64 """ 결측치 확인하기: pd.isna()에 df를 입력하면 결측치는 True, 결측치가 아닌 값은 False pd.isna(df) 결측치 제거하기 df.dropna()를 이용하면 결측치가 있는..
6장 자유자재로 데이터 가공하기 (6)
6-7 데이터 합치기 데이터를 합치는 방법 : 가로로 합치기, 세로로 합치기 가로로 합치기 1. pd.merge()에 결합할 데이터 프레임명 나열 2. 오른쪽에 입력한 데이터 프레임을 왼쪽 데이터 프레임에 결합하도록 how = 'left'를 입력 3. 데이터를 합칠 때 기준으로 삼을 변수명을 on에 입력 # 중간고사 데이터 만들기 test1 = pd.DataFrame({'id' : [1, 2, 3, 4, 5], 'midterm' : [60, 80, 70, 90, 85]}) # 기말고사 데이터 만들기 test2 = pd.DataFrame({'id' : [1, 2, 3, 4, 5], 'final' : [70, 83, 65, 95, 80]}) test1 test2 total = pd.merge(test1, t..