본문 바로가기

데이터 분석 학습

14장 통계 분석 기법을 이용한 가설 검정 (1)

반응형

14-1 가설 검정이란?

  • 기술 통계와 추론 통계
    • 기술 통계(descriptive statistics): 데이터를 요약해 설명하는 통계 분석 기법
    • 추론 통계(inferential statistics): 단순히 숫자를 요약하는 것을 넘어 어떤 값이 발생할 확률을 계산하는 통계 분석 기법
  • 통계적 가설 검정
    • 통계적 가설 검정(statistical hypothesis test): 유의 확률을 이용해 가설을 검정하는 방법
    • 유의확률(significance probability, p-value): 실제로는 집단 간 차이가 없는데 우연히 차이가 있는 데이터가 추출될 확률

14-2 t 검정 -두 집단의 평균 비교하기

  • t 검정: 두 집단의 평균에 통계적으로 유의한 차이가 있는지 알아볼 때 사용하는 통계 분석 기법

compact 자동차와 suv 자동차의 도시 연비 t 검정

import pandas as pd
mpg = pd.read_csv('mpg.csv')

## 기술 통계 분석

# compact, suv 추출하기
# category별 분리
# 빈도 구하기
# cty 평균 구하기
mpg.query('category in ["compact", "suv"]') \
   .groupby('category', as_index = False) \
   .agg(n    = ('category', 'count'),
        mean = ('cty', 'mean'))

compact = mpg.query('category == "compact"')['cty']
suv = mpg.query('category == "suv"')['cty']
# t-test
from scipy import stats
stats.ttest_ind(compact, suv, equal_var = True)

##출력: Ttest_indResult(statistic=11.917282584324107, pvalue=2.3909550904711282e-21)
  • p-value가 0.05 보다 작기 때문에 이 분석 결과는 'compact'와 'suv'간 평균 도시 연비 차이가 통계적으로 유의하다

일반 휘발유와 고급 휘발유의 도시 연비 t 검정

## 기술 통계 분석

# r, p 추출하기
# fl별 분리
# 빈도 구하기
# cty 평균 구하기
mpg.query('fl in ["r", "p"]') \
   .groupby('fl', as_index = False) \
   .agg(n    = ('category', 'count'),
        mean = ('cty', 'mean'))

regular = mpg.query('fl == "r"')['cty']
premium = mpg.query('fl == "p"')['cty']

# t-test
stats.ttest_ind(regular, premium, equal_var = True)

##출력: Ttest_indResult(statistic=-1.066182514588919, pvalue=0.28752051088667036)
  • p-value가 0.05보다 큰 0.2875...이므로 해당 차이는 통계적으로 유의하지 않다
  • 즉, 우연히 발생했을 가능성이 크다

 

 

 

 

 

※ 해당 내용은 <Do it! 파이썬 데이터 분석>의 내용을 토대로 학습하며 정리한 내용입니다.

반응형