본문 바로가기

데이터 분석 학습

5장 데이터 분석 기초! - 데이터 파악하기, 다루기 쉽게 수정하기 (1)

반응형

5-1 데이터 파악하기

데이터를 파악할 때 사용하는 명령어

head() : 앞부분 출력

tail() : 뒷부분 출력

shape : 행, 열 개수 출력

info() : 변수 속성 출력

describe() : 요약 통계량 출력

exam 데이터 파악하기

import pandas as pd
exam = pd.read_csv('exam.csv')
exam.head()

exam.head(10)

exam.tail()

exam.tail(10)

exam.shape

##출력: (20, 5)
exam.info()

"""
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 5 columns):
 #   Column   Non-Null Count  Dtype
---  ------   --------------  -----
 0   id       20 non-null     int64
 1   nclass   20 non-null     int64
 2   math     20 non-null     int64
 3   english  20 non-null     int64
 4   science  20 non-null     int64
dtypes: int64(5)
memory usage: 928.0 bytes
"""
exam.describe()

mpg 데이터 파악하기

mpg 데이터 : 미국 환경 보호국에서 공개한 1999~2008년 미국에서 출시된 자동차 234종의 정보 데이터

mpg = pd.read_csv('mpg.csv')
mpg.head()

mpg.tail()

mpg.shape

##출력: (234, 11)
mpg.info()

"""
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 234 entries, 0 to 233
Data columns (total 11 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   manufacturer  234 non-null    object 
 1   model         234 non-null    object 
 2   displ         234 non-null    float64
 3   year          234 non-null    int64  
 4   cyl           234 non-null    int64  
 5   trans         234 non-null    object 
 6   drv           234 non-null    object 
 7   cty           234 non-null    int64  
 8   hwy           234 non-null    int64  
 9   fl            234 non-null    object 
 10  category      234 non-null    object 
dtypes: float64(1), int64(4), object(6)
memory usage: 20.2+ KB
"""
mpg.describe()

mpg.describe(include = 'all')

함수와 메서드 차이 알아보기

1. 내장 함수

가장 기본적인 함수 형태로 함수 이름과 괄호를 입력하여 사용

파이썬에 내장되어 있으므로 별도 패키지 설치 불필요

#sum(var)
#max(var)

2. 패키지 함수

패키지 이름을 먼저 입력한 다음 점을 찍고 함수 이름과 괄호 입력해 사용

패키지를 로드해야 사용 가능

#import pandas as pd
#pd.read_csv('exam_csv')
#pd.DataFrame({'x' : [1,2,3]})

3. 메서드

변수가 지니고 있는 함수

변수명을 입력한 다음 점을 찍고 메서드 이름과 괄호를 입력하여 사용

#df.head()
#df.info()

어트리뷰트 알아보기

어트리뷰트(attribute) : 변수가 지니고 있는 값

출력하기 위해 변수명 뒤에 점을 찍고 어트리뷰트 이름 입력

괄호 불필요 (괄호 있으면 메서드)

 

 

 

 

※ 해당 내용은 <Do it! 파이썬 데이터 분석>의 내용을 토대로 학습하며 정리한 내용입니다.

반응형