7장 데이터 정제 - 빠진 데이터, 이상한 데이터 제거하기 (2)
7-2 이상한 데이터를 찾아라! - 이상치 정제하기 이상치(anomaly): 정상 범위에서 크게 벗어난 값 이상치 제거하기-존재할 수 없는 값 df = pd.DataFrame({'sex' : [1,2,1,3,2,1], 'score' : [5,4,3,4,2,6]}) df 이상치 확인하기 df['sex'].value_counts().sort_index() """ 1 3 2 2 3 1 Name: sex, dtype: int64 """ df['score'].value_counts().sort_index() """ 2 1 3 1 4 2 5 1 6 1 Name: score, dtype: int64 """ 결측 처리하기 df['sex'] = np.where(df['sex'] == 3, np.nan, df['sex']..
7장 데이터 정제 - 빠진 데이터, 이상한 데이터 제거하기 (1)
7-1 빠진 데이터를 찾아라! - 결측치 정제하기 결측치(missing value) ckwrl 결측치 만들기: NumPy 패키지의 np.nan 입력 import pandas as pd import numpy as np df = pd.DataFrame({'sex' : ['M', 'F', np.nan, 'M', 'F'], 'score' : [5,4,3,4, np.nan]}) df df['score'] + 1 """ 0 6.0 1 5.0 2 4.0 3 5.0 4 NaN Name: score, dtype: float64 """ 결측치 확인하기: pd.isna()에 df를 입력하면 결측치는 True, 결측치가 아닌 값은 False pd.isna(df) 결측치 제거하기 df.dropna()를 이용하면 결측치가 있는..