HOME
home
About
home

Kruskal-Wallis 검정 (1)

Kruskal-Wallis 검정 완벽 정리!

1. 개요
(1) 기본 개념
Kruskal-Wallis 검정은 세 개 이상의 독립된 집단 간 분포 차이 (특히 중위수 중심)를 비교하는 비모수적 검정 방법입니다. 쉽게 말해, 집단들의 순위를 비교하여 차이를 확인하는 거죠!
장점: 정규분포를 따르지 않거나 이상치가 많은 데이터에도 적용 가능!
ANOVA: ANOVA는 정규분포와 등분산성을 가정하지만, Kruskal-Wallis 검정은 이러한 가정이 필요 없어요.
(2) 사용 조건
독립 표본: 각 집단의 샘플이 서로 겹치지 않아야 해요. (예: 서로 다른 사람/집단에 대한 측정)
순서형/연속형 종속변수: 순위를 매길 수 있는 값이면 OK!
정규성 가정 위배: 데이터가 왜곡되었거나 이상치가 많아 정규분포를 가정하기 어려울 때 유리해요.
등분산성 가정 위배: 집단 간 분산이 크게 달라도 사용 가능해요.
2. 수학적 기초
(1) 기본 원리
1.
데이터 순위화: 모든 집단의 관찰값을 하나의 리스트로 모아 오름차순으로 정렬하고 순위를 부여합니다.
2.
동률 처리: 값이 같으면 해당 관측값들이 차지하는 순위의 평균값을 할당합니다. (동률 평균 순위)
3.
집단별 순위 합계 계산: 각 집단에 속한 데이터의 순위를 모두 더합니다.
4.
검정 통계량 (H) 계산: 각 집단의 평균 순위와 집단 크기를 이용하여 H 값을 계산합니다. 집단 간 순위 차이가 클수록 H 값이 커져요!
(2) 검정 통계량 (H)
H=12N(N+1)(Ri2ni);;3(N+1) H = \frac{12}{N(N+1)} \sum \left(\frac{R_i^2}{n_i}\right) ;-; 3(N+1)
N: 전체 표본 크기
Ri: i 번째 집단의 순위 합
ni: i 번째 집단의 표본 크기
(3) 귀무가설과 대립가설
귀무가설 (H0): 모든 집단의 분포는 동일하다. 즉, 집단 간 차이가 없다.
대립가설 (H1): 적어도 한 집단이 나머지 집단과 다른 분포 (또는 중위수)를 가진다.
3. 검정 절차
(1) 기본 단계
1.
데이터 순위화 (동률 발생 시 동률 평균 순위 할당)
2.
집단별 순위 합계 계산
3.
검정 통계량 (H) 계산
4.
결과 해석: p-값이 유의수준보다 작으면 "유의미한 차이"가 있다고 판단!
(2) 동률 보정
동일한 값을 가진 관측값이 많을 경우, 동률 보정을 해야 정확한 결과를 얻을 수 있어요. 소프트웨어에서 "동률 보정" 옵션을 확인하세요!
4. 사후 분석
Kruskal-Wallis 검정 결과 유의미한 차이가 있다면, 어떤 집단 간에 차이가 있는지 확인하기 위해 사후 분석을 실시합니다.
Dunn's Test: 쌍별 비교를 통해 집단 간 차이를 확인하는 방법입니다.
Mann-Whitney U 검정: 두 집단씩 비교하는 방법입니다.
5. 해석 및 보고
(1) 기본 정보 포함 사항
표본 크기, 검정 통계량 (H), 자유도, p-값, 사후 검정 결과 등을 명확하게 제시해야 합니다.
(2) 시각화 방법
상자 그림, 바이올린 플롯, 순위 분포 그래프 등을 이용하여 결과를 시각적으로 표현할 수 있습니다.
6. 장단점
(1) 장점
정규성 가정 불필요, 이상치에 강건, 순서형 데이터에 적합, 등분산성 가정 불필요
(2) 단점
모수적 방법 대비 검정력이 낮을 수 있음, 순위 변환으로 인한 정보 손실, 평균 차이의 직접적 해석 어려움
7. 실무 적용 시 고려 사항
정규성 가정 위배, 이상치 많음, 순서형 데이터, 등분산성 가정 위배 시 Kruskal-Wallis 검정을 사용합니다.
독립성 가정, 표본 크기 균형, 동률 처리, 사후 검정 등에 주의해야 합니다.
마무리
Kruskal-Wallis 검정은 세 개 이상의 집단 간 분포 차이를 비교할 때 유용한 비모수적 방법입니다. 특히 정규분포를 따르지 않거나 이상치가 많은 데이터에 적합하며, 순위 기반으로 분석하기 때문에 이상치에 덜 민감합니다. Kruskal-Wallis 검정을 통해 다양한 데이터에서 집단 간 차이를 효과적으로 분석할 수 있습니다.