반응형
14-1 가설 검정이란?
- 기술 통계와 추론 통계
- 기술 통계(descriptive statistics): 데이터를 요약해 설명하는 통계 분석 기법
- 추론 통계(inferential statistics): 단순히 숫자를 요약하는 것을 넘어 어떤 값이 발생할 확률을 계산하는 통계 분석 기법
- 통계적 가설 검정
- 통계적 가설 검정(statistical hypothesis test): 유의 확률을 이용해 가설을 검정하는 방법
- 유의확률(significance probability, p-value): 실제로는 집단 간 차이가 없는데 우연히 차이가 있는 데이터가 추출될 확률
14-2 t 검정 -두 집단의 평균 비교하기
- t 검정: 두 집단의 평균에 통계적으로 유의한 차이가 있는지 알아볼 때 사용하는 통계 분석 기법
compact 자동차와 suv 자동차의 도시 연비 t 검정
import pandas as pd
mpg = pd.read_csv('mpg.csv')
## 기술 통계 분석
# compact, suv 추출하기
# category별 분리
# 빈도 구하기
# cty 평균 구하기
mpg.query('category in ["compact", "suv"]') \
.groupby('category', as_index = False) \
.agg(n = ('category', 'count'),
mean = ('cty', 'mean'))
compact = mpg.query('category == "compact"')['cty']
suv = mpg.query('category == "suv"')['cty']
# t-test
from scipy import stats
stats.ttest_ind(compact, suv, equal_var = True)
##출력: Ttest_indResult(statistic=11.917282584324107, pvalue=2.3909550904711282e-21)
- p-value가 0.05 보다 작기 때문에 이 분석 결과는 'compact'와 'suv'간 평균 도시 연비 차이가 통계적으로 유의하다
일반 휘발유와 고급 휘발유의 도시 연비 t 검정
## 기술 통계 분석
# r, p 추출하기
# fl별 분리
# 빈도 구하기
# cty 평균 구하기
mpg.query('fl in ["r", "p"]') \
.groupby('fl', as_index = False) \
.agg(n = ('category', 'count'),
mean = ('cty', 'mean'))
regular = mpg.query('fl == "r"')['cty']
premium = mpg.query('fl == "p"')['cty']
# t-test
stats.ttest_ind(regular, premium, equal_var = True)
##출력: Ttest_indResult(statistic=-1.066182514588919, pvalue=0.28752051088667036)
- p-value가 0.05보다 큰 0.2875...이므로 해당 차이는 통계적으로 유의하지 않다
- 즉, 우연히 발생했을 가능성이 크다
※ 해당 내용은 <Do it! 파이썬 데이터 분석>의 내용을 토대로 학습하며 정리한 내용입니다.
반응형
'데이터 분석 학습' 카테고리의 다른 글
15장 머신러닝을 이용한 예측 분석 (1) (0) | 2023.05.08 |
---|---|
14장 통계 분석 기법을 이용한 가설 검정 (2) (0) | 2023.05.07 |
12장 인터랙티브 그래프 (0) | 2023.05.05 |
11장 지도 시각화 (2) (0) | 2023.05.04 |
11장 지도 시각화 (1) (0) | 2023.05.03 |