본문 바로가기

반응형

전체 글

(291)
7장 데이터 정제 - 빠진 데이터, 이상한 데이터 제거하기 (3) 7-2 이상한 데이터를 찾아라! - 이상치 정제하기 이상치 제거하기-극단적인 값 극단치(outlier) 상자 그림(box plot)으로 극단치 기준 정하기 1. 상자 그림 살펴보기 mpg = pd.read_csv('mpg.csv') import seaborn as sns sns.boxplot(data = mpg, y = 'hwy') 2. 극단치 기준값 구하기 1) 1사분위수, 3사분위수 구하기 pct25 = mpg['hwy'].quantile(.25) pct25 ##출력: 18.0 pct75 = mpg['hwy'].quantile(.75) pct75 ##출력: 27.0 2) IQR(inter quartile range, 사분위 범위) 구하기 iqr = pct75 - pct25 iqr ##출력: 9.0 3..
7장 데이터 정제 - 빠진 데이터, 이상한 데이터 제거하기 (2) 7-2 이상한 데이터를 찾아라! - 이상치 정제하기 이상치(anomaly): 정상 범위에서 크게 벗어난 값 이상치 제거하기-존재할 수 없는 값 df = pd.DataFrame({'sex' : [1,2,1,3,2,1], 'score' : [5,4,3,4,2,6]}) df 이상치 확인하기 df['sex'].value_counts().sort_index() """ 1 3 2 2 3 1 Name: sex, dtype: int64 """ df['score'].value_counts().sort_index() """ 2 1 3 1 4 2 5 1 6 1 Name: score, dtype: int64 """ 결측 처리하기 df['sex'] = np.where(df['sex'] == 3, np.nan, df['sex']..
7장 데이터 정제 - 빠진 데이터, 이상한 데이터 제거하기 (1) 7-1 빠진 데이터를 찾아라! - 결측치 정제하기 결측치(missing value) ckwrl 결측치 만들기: NumPy 패키지의 np.nan 입력 import pandas as pd import numpy as np df = pd.DataFrame({'sex' : ['M', 'F', np.nan, 'M', 'F'], 'score' : [5,4,3,4, np.nan]}) df df['score'] + 1 """ 0 6.0 1 5.0 2 4.0 3 5.0 4 NaN Name: score, dtype: float64 """ 결측치 확인하기: pd.isna()에 df를 입력하면 결측치는 True, 결측치가 아닌 값은 False pd.isna(df) 결측치 제거하기 df.dropna()를 이용하면 결측치가 있는..

반응형