Tukey HSD

Tukey HSD (Tukey’s Honest Significant Difference)란?

Tukey HSD 검정은 **분산 분석(ANOVA)**의 사후 분석(Post-hoc test) 방법으로,
ANOVA 결과에서 여러 그룹 간 평균 차이가 유의미하다고 판정된 경우, 어떤 그룹 간에 차이가 나는지를 구체적으로 확인하는 데 사용됩니다.

Tukey HSD의 주요 특징

1.
다중 비교 문제 해결
ANOVA는 여러 그룹 간 평균 차이가 있는지 알려주지만, 개별 그룹 간 차이를 직접 비교하지 않습니다.
Tukey HSD는 그룹 간 모든 가능한 쌍을 비교하면서, 다중 비교로 인한 오류(Type I error)를 제어합니다.
2.
균등한 표본 크기 및 분산 가정
Tukey HSD는 각 그룹이 동일한 분산을 갖고 있다고 가정합니다(분산의 동질성).
표본 크기가 비슷할수록 결과가 더 신뢰할 만합니다.
3.
유의수준 조정
Tukey HSD는 유의수준()을 다중 비교에 맞게 조정하여 신뢰할 수 있는 결과를 제공합니다.
α\alpha

Tukey HSD의 공식

두 그룹 ii와 jj 간의 평균 차이를 비교하는 검정 통계량:
Q=∣Xˉi−Xˉj∣MSEnQ = \frac{|\bar{X}_i - \bar{X}_j|}{\sqrt{\frac{\text{MSE}}{n}}}
Xˉi,Xˉj\bar{X}_i, \bar{X}_j: 그룹 와 의 평균
ii
jj
MSE\text{MSE}: Mean Square Error (ANOVA에서 추출된 잔차의 평균 제곱)
nn: 각 그룹의 표본 크기
검정 통계량 QQ 값을 Tukey의 분포표와 비교하여 두 그룹 간 평균 차이가 유의미한지 판단합니다.

Tukey HSD 검정 절차

1.
ANOVA 수행
H0H_0: 모든 그룹 간 평균이 동일하다 ().
μ1=μ2=μ3=...\mu_1 = \mu_2 = \mu_3 = ...
H1H_1: 적어도 하나의 그룹이 다른 그룹과 평균이 다르다.
2.
유의미한 결과 확인
ANOVA 결과 인 경우, 사후 분석(Tukey HSD)을 수행.
p<αp < \alpha
3.
Tukey HSD 계산
각 그룹 간 평균 차이를 계산하고, 유의수준에 따라 통계적 유의미성을 판정.
4.
결과 해석
유의미한 그룹 쌍을 확인하여 어떤 그룹 간 차이가 존재하는지 명시.

Python 코드 예제

데이터 예시

한 제조업체에서 세 가지 공정(A, B, C)이 제품 품질(강도)에 미치는 영향을 분석합니다.
import pandas as pd from statsmodels.stats.multicomp import pairwise_tukeyhsd from statsmodels.formula.api import ols import statsmodels.api as sm # 데이터 생성 data = pd.DataFrame({ "공정": ["A", "A", "A", "B", "B", "B", "C", "C", "C"], "강도": [85, 87, 86, 88, 90, 89, 92, 91, 93] }) # 1. ANOVA 수행 model = ols('강도 ~ 공정', data=data).fit() anova_table = sm.stats.anova_lm(model, typ=2) print("ANOVA 결과:\n", anova_table) # 2. Tukey HSD 수행 tukey = pairwise_tukeyhsd(endog=data["강도"], groups=data["공정"], alpha=0.05) print("\nTukey HSD 결과:\n", tukey)
Python
복사

출력 결과

1.
ANOVA 결과 (공정 간 평균 차이가 유의미한지 확인)
sum_sq df F PR(>F) 공정 40.6667 2 48.0000 0.00034 Residual 5.0833 6
Plain Text
복사
p<0.05p < 0.05: 공정 A, B, C 중 적어도 하나의 평균이 다름.
1.
Tukey HSD 결과 (구체적인 그룹 간 차이 확인)
Multiple Comparison of Means - Tukey HSD, FWER=0.05 ============================================== group1 group2 meandiff p-adj lower upper reject ---------------------------------------------------- A B 3.0 0.001 1.748 4.252 True A C 6.0 0.001 4.748 7.252 True B C 3.0 0.001 1.748 4.252 True ----------------------------------------------------
Plain Text
복사
A와 B, A와 C, B와 C 모두 유의미한 평균 차이가 있음.

해석

Tukey HSD 검정은 공정 A, B, C의 모든 쌍에서 유의미한 평균 차이를 발견.
따라서, 제조 공정을 개선하려면 각 공정의 품질 차이에 따라 최적화를 진행해야 함.

Tukey HSD의 활용

1.
제조업: 다양한 생산 라인 또는 공정 간 품질 차이를 분석하여 개선 방향 도출.
2.
교육: 여러 학습 프로그램 간 성과를 비교하여 최적의 프로그램 선정.
3.
마케팅: 여러 캠페인 전략 간 효과를 분석하여 성과가 좋은 캠페인 확인.
4.
의학: 여러 치료법의 효과를 비교하여 최적의 치료법 추천.
Tukey HSD 검정은 ANOVA의 결과를 구체화하고, 그룹 간의 차이를 명확히 밝혀주는 강력한 도구입니다. 추가적으로 실습 데이터나 해석이 필요하면 말씀해주세요!