본문 바로가기

데이터 분석 학습

6장 자유자재로 데이터 가공하기 (1)

반응형

6-1 데이터 전처리-원하는 형태로 데이터 가공하기

데이터 전처리 (data preprocessing) : 분석에 적합하게 데이터를 가공하는 작업

일부를 추출하거나, 종류별로 나누거나, 여러 데이터를 합치는 등 데이터를 자유롭게 가공할 수 있어야 목적에 맞게 사용 가능

데이터 가공, 데이터 핸들링, 데이터 랭글링, 데이터 먼징이 비슷한 의미로 사용

pandas를 이용해 데이터를 가공하는 방법

6-2 조건에 맞는 데이터만 추출하기

pandas의 df.query()를 사용하면 원하는 데이터를 추출 가능

조건에 맞는 데이터만 추출하기

import pandas as pd
exam = pd.read_csv('exam.csv')
exam

#exam에서 nclass가 1인 경우만
exam.query('nclass == 1')

#2반인 경우만
exam.query('nclass == 2')

#1반이 아닌 경우
exam.query('nclass != 1')

#3반이 아닌 경우
exam.query('nclass != 3')

초과, 미만, 이상, 이하 조건 걸기

#수학 점수가 50점을 초과한 경우
exam.query('math > 50')

#수학 점수가 50점 미만인 경우
exam.query('math < 50')

#영어 점수가 50점 이상인 경우
exam.query('english >= 50')

#영어 점수가 80점 이하인 경우
exam.query('english <= 80')

여러 조건을 충족하는 행 추출

#1반이면서 수학 점수가 50점 이상인 경우
exam.query('nclass == 1 and math >= 50')

#2반이면서 영어 점수가 80점 이상인 경우
exam.query('nclass == 2 & english >= 80')

 

 

 

 

 

※ 해당 내용은 <Do it! 파이썬 데이터 분석>의 내용을 토대로 학습하며 정리한 내용입니다.

반응형