본문 바로가기

데이터 분석 학습

9장 데이터 분석 프로젝트 - 한국인의 삶을 파악하라!

반응형

9-1 '한국복지패널 데이터' 분석 준비하기 (1)

'한국복지 패널 데이터'는 한국보건사회연구원에서 우리나라 가구의 경제활동을 연구해 복지 정책에 반영할 목적으로 발간하는 조사 자료

데이터 분석 준비하기

1. 데이터 준비하기

2. 패키지 설치 및 로드하기

3. 데이터 불러오기

4. 데이터 검토하기

5. 변수명 바꾸기

!pip install pyreadstat

"""
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting pyreadstat
  Downloading pyreadstat-1.2.1-cp39-cp39-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (2.7 MB)
     ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 2.7/2.7 MB 50.4 MB/s eta 0:00:00
Requirement already satisfied: pandas>=1.2.0 in /usr/local/lib/python3.9/dist-packages (from pyreadstat) (1.4.4)
Requirement already satisfied: numpy>=1.18.5 in /usr/local/lib/python3.9/dist-packages (from pandas>=1.2.0->pyreadstat) (1.22.4)
Requirement already satisfied: pytz>=2020.1 in /usr/local/lib/python3.9/dist-packages (from pandas>=1.2.0->pyreadstat) (2022.7.1)
Requirement already satisfied: python-dateutil>=2.8.1 in /usr/local/lib/python3.9/dist-packages (from pandas>=1.2.0->pyreadstat) (2.8.2)
Requirement already satisfied: six>=1.5 in /usr/local/lib/python3.9/dist-packages (from python-dateutil>=2.8.1->pandas>=1.2.0->pyreadstat) (1.15.0)
Installing collected packages: pyreadstat
Successfully installed pyreadstat-1.2.1
"""
import pandas as pd
import numpy as np
import seaborn as sns
import pyreadstat
# 데이터 불러오기
raw_welfare = pd.read_spss('Koweps_hpwc14_2019_beta2.sav')

# 복사본 만들기 
welfare = raw_welfare.copy()

welfare             # 앞부분, 뒷부분 출력

welfare.shape       # 행, 열 개수 출력

##출력: (14418, 830)
welfare.info()      # 변수 속성 출력

"""
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14418 entries, 0 to 14417
Columns: 830 entries, h14_id to h14_pers_income5
dtypes: float64(826), object(4)
memory usage: 91.3+ MB
"""
welfare.describe()  # 요약 통계량

welfare = welfare.rename(columns = {'h14_g3'     : 'sex',            #  성별
                                    'h14_g4'     : 'birth',          #  태어난 연도
                                    'h14_g10'    : 'marriage_type',  #  혼인 상태
                                    'h14_g11'    : 'religion',       #  종교 
                                    'p1402_8aq1' : 'income',         #  월급 
                                    'h14_eco9'   : 'code_job',       #  직업 코드
                                    'h14_reg7'   : 'code_region'})   #  지역 코드

코드북(codebook)- 규모가 큰 조사 자료의 데이터 특징을 설명해 높은 것

코드로 된 변수명과 값의 의미가 설명되어 있음

이를 통해 데이터의 특징이 어떠한지 감을 잡고, 분석에 어떤 변수를 활용할지, 분석 방향의 아이디어를 얻을 수 있음

데이터 분석 절차 살펴보기

1단계 변수 검토 및 전처리

변수의 특징을 파악하고 이상치와 결측치를 정제한 다음 변수의 값을 다루기 편하기 바꿈

2단계 변수간 관계 분석

데이터를 요약한 표와 데이터의 특징을 쉽게 이해할 수 있는 그래프를 만든 다음 분석 결과 해석

 

 

 

 

※ 해당 내용은 <Do it! 파이썬 데이터 분석>의 내용을 토대로 학습하며 정리한 내용입니다.

반응형