본문 바로가기

데이터 분석 학습

4장 데이터 프레임의 세계로 (1)

반응형

4-1 데이터 프레임 이해하기 - 데이터는 어떻게 생겼나?

데이터 프레임(data frame)은 데이터를 다룰 때 가장 많이 사용하는 데이터 형태로, 행과 열로 구성된 사각형 모양의 표처럼 생김

'열'은 속성-컬럼(column), 변수(variable)

'행'은 정보-로(row), 케이스(case)

한 사람의 정보는 가로 한 줄에 나열

하나의 단위가 하나의 행

데이터가 크다 = 행이 많다 or 열이 많다

데이터 분석 시에는 열이 많은 것이 중요함

행이 많다 -> 컴퓨터가 느려짐 -> 고사양 장비 구축

열이 많다 -> 분석 방법의 한계 -> 고급 분석 방법

 

4-2 데이터 프레임 만들기-시험 성적 데이터 만들기

데이터 입력해 데이터 프레임 만들기

pandas 패키지 로드

import pandas as pd

 

데이터 프레임 만들기

df = pd.DataFrame({'name'    : ['김지훈', '이유진', '박동현', '김민지'],
                   'english' : [90, 80, 60, 70],
                   'math'    : [50, 60, 100, 20]})
df

데이터 프레임으로 분석하기

특정 변수의 값 추출

df['english']

"""
0    90
1    80
2    60
3    70
Name: english, dtype: int64
"""

 

변수의 값으로 합계 구하기

sum(df['english'])

##출력: 300
sum(df['math'])

##출력: 230

변수의 값으로 평균 구하기

sum(df['english'])/4

##출력: 75.0
sum(df['math'])/4

##출력: 57.5

 

혼자서 해보기

Q1 표의 내용을 데이터 프레임으로 만들어 출력하기

import pandas as pd

df_1 = pd.DataFrame({'제품' : ['사과', '딸기', '수박'],
                     '가격' : [1800 ,1500, 3000],
                     '판매량' : [24, 38, 13]})

df_1

Q2 데이터 프레임을 이용해 과일의 가격 평균과 판매량 평균 구하기

sum(df_1['가격']) / 3

##출력: 2100.0
sum(df_1['판매량'])/3

##출력: 25.0

 

 

 

 

※ 해당 내용은 <Do it! 파이썬 데이터 분석>의 내용을 토대로 학습하며 정리한 내용입니다.

반응형