본문 바로가기

반응형

한국복지패널 데이터

(6)
9장 데이터 분석 프로젝트 - 한국인의 삶을 파악하라! (7) 9-7 성별 직업 빈도 - 성별로 어떤 직업이 가장 많을까? 분석 절차 1단계 변수 검토 및 전처리 성별 직업 2. 변수 간 관계 분석 성별 직업 빈도표 만들기 그래프 만들기 성별 직업 빈도 분석하기 1. 성별 직업 빈도표 만들기 2. 그래프 만들기 ## 남성 직업 빈도 상위 10개 추출 # job 결측치 제거 # male 추출 # job별 분리 # job 빈도 구하기 # 내림차순 정렬 # 상위 10행 추출 job_male = welfare.dropna(subset = ['job']) \ .query('sex == "male"') \ .groupby('job', as_index = False) \ .agg(n = ('job', 'count')) \ .sort_values('n', ascending = F..
9장 데이터 분석 프로젝트 - 한국인의 삶을 파악하라! (5) 9-5 연령대 및 성별 월급 차이 - 성별 월급 차이는 연령대별로 다를까? 분석 절차 1단계 변수 검토 및 전처리 연령대 성별 월급 2. 변수 간 관계 분석 연령대 및 성별 월급 평균표 만들기 그래프 만들기 연령대 및 성별 월급 차이 분석하기 1. 연령대 및 성별 월급 평균표 만들기 ## 연령대 및 성별 평균표 만들기 # income 결측치 제거 # ageg 및 sex별 분리 # income 평균 구하기 sex_income = welfare.dropna(subset = ['income']) \ .groupby(['ageg', 'sex'], as_index = False) \ .agg(mean_income = ('income', 'mean')) sex_income 2. 그래프 만들기 # 막대 그래프 만들기..
9장 데이터 분석 프로젝트 - 한국인의 삶을 파악하라! (4) 9-4 연령대에 따른 월급 차이 - 어떤 연령대의 월급이 가장 많을까? 분석 절차 1단계 변수 검토 및 전처리 연령대 월급 2단계 변수 간 관계 분석 연령대별 월급 평균표 만들기 그래프 만들기 # 나이 변수 살펴보기 welfare['age'].head() """ 0 75.0 1 72.0 2 78.0 3 58.0 4 57.0 Name: age, dtype: float64 """ # 연령대 변수 만들기 welfare = welfare.assign(ageg = np.where(welfare['age'] < 30, 'young', np.where(welfare['age']
9장 데이터 분석 프로젝트 - 한국인의 삶을 파악하라! (3) 9-3 나이와 월급의 관계 - 몇 살 때 월급을 가장 많이 받을까? 분석 절차 1단계 변수 검토 및 전처리 나이 월급 2단계 변수 간 관계 분석 나이에 따른 월급 평균표 만들기 그래프 만들기 나이 변수 검토 및 전처리하기 1. 변수 검토하기 2. 전처리 3. 파생변수 만들기 - 나이 welfare['birth'].dtypes ##출력: dtype('float64') welfare['birth'].describe() """ count 14418.000000 mean 1969.280205 std 24.402250 min 1907.000000 25% 1948.000000 50% 1968.000000 75% 1990.000000 max 2018.000000 Name: birth, dtype: float64 ""..
9장 데이터 분석 프로젝트 - 한국인의 삶을 파악하라! (2) 9-2 성별에 따른 월급 차이 - 성별에 따라 월급이 다를까? 분석 절차 1단계 - 변수 검토 및 전처리 성별 월급 2단계 - 변수 간 관계 분석 성별 월급 평균표 만들기 그래프 만들기 성별 변수 검토 및 전처리하기 1. 변수 검토하기 2. 전처리하기 welfare['sex'].dtypes # 변수 타입 출력 ##출력: dtype('float64') welfare['sex'].value_counts() # 빈도 구하기 """ 2.0 7913 1.0 6505 Name: sex, dtype: int64 """ # 이상치 확인 welfare['sex'].value_counts() """ 2.0 7913 1.0 6505 Name: sex, dtype: int64 """ # 이상치 결측 처리 welfare['se..
9장 데이터 분석 프로젝트 - 한국인의 삶을 파악하라! 9-1 '한국복지패널 데이터' 분석 준비하기 (1) '한국복지 패널 데이터'는 한국보건사회연구원에서 우리나라 가구의 경제활동을 연구해 복지 정책에 반영할 목적으로 발간하는 조사 자료 데이터 분석 준비하기 1. 데이터 준비하기 2. 패키지 설치 및 로드하기 3. 데이터 불러오기 4. 데이터 검토하기 5. 변수명 바꾸기 !pip install pyreadstat """ Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/ Collecting pyreadstat Downloading pyreadstat-1.2.1-cp39-cp39-manylinux_2_17_x86_64.manylinux2..

반응형