HOME
home
About
home

다중공산성(multicollinearity)

다중공선성(multicollinearity)은 선형 회귀 분석에서 사용되는 독립 변수들 사이에 높은 상관관계가 있을 때 발생하는 현상입니다.
변수간 높은 상관관계 때문에, 모델의 독립 변수가 다른 독립 변수의 변화를 예측하는데 영향을 미칠 경우, 모델의 계수(가중치) 추정이 불안정해지고 해석이 어려워질 수 있습니다.
즉, 다중공선성이 있는 경우 하나의 독립 변수의 값이 변할 때, 변수들이 서로 의존적이라는 것을 의미하며, 결과적으로 회귀 모델의 계수 추정치를 해석하기 어렵게 만들고, 모델의 정확성에 부정적인 영향을 미칠 수 있습니다.

수식을 통한 이해

회귀 모델에서 다중공선성을 수식으로 설명할 때는 일반적으로 다음과 같은 선형 회귀 모델을 고려합니다:
Y=β0+β1X1+β2X2++βnXn+ϵ Y = \beta_0 + \beta_1X_1 + \beta_2X_2 + \cdots + \beta_nX_n + \epsilon
여기서, \(Y\)는 종속 변수, \(X_1, X_2, \cdots, X_n\)은 독립 변수, \(\beta_0, \beta_1, \cdots, \beta_n\)은 회귀 계수, 그리고 \(\epsilon\)은 오차 항을 나타냅니다.
다중공선성은 이 독립 변수들 중 하나 이상이 다른 독립 변수들의 선형 조합으로 근사될 수 있을 때 발생합니다. 예를 들어, 두 독립 변수 \(X_1\)과 \(X_2\)가 있을 때, 다음과 같은 관계가 있다고 가정해 봅시다:
\[ X1α0+α1X2X_1 \approx \alpha_0 + \alpha_1X_2 \]
이 경우, \(X1X_1\)과 \(X2X_2\) 사이에 강한 선형 관계가 있으며, 다중공선성이 존재한다고 할 수 있습니다.

모델 개선 방법

다중공선성 문제를 해결하기 위한 방법으로는 독립 변수들 간의 상관 관계를 줄이는 것이 있습니다. 이를 위해 다음과 같은 방법을 사용할 수 있습니다:
상관 관계가 높은 변수들 중 일부를 제거
주성분 분석(PCA) 같은 차원 축소 기법을 사용하여 서로 독립적인 새로운 변수들을 생성
정규화 기법(Lasso, Ridge 회귀 등)을 사용하여 변수들의 영향력을 조절
다중공선성은 모델의 안정성과 해석 가능성에 중요한 영향을 미치므로, 회귀 모델을 구축할 때 주의 깊게 고려해야 합니다.

다중공선성이 문제가 되는 주된 이유

1.
계수 추정의 불안정성: 높은 다중공선성을 가진 모델은 작은 데이터 변화에도 계수가 크게 변할 수 있습니다. 이는 모델의 예측력을 떨어뜨리고, 신뢰할 수 있는 결론을 도출하기 어렵게 만듭니다.
2.
해석의 어려움: 각 독립 변수의 효과를 개별적으로 분리해서 해석하는 것이 어렵기 때문에, 모델의 결과를 해석하고 이해하는 것이 더 복잡해집니다.
다중공선성의 존재를 확인하는 방법
상관 행렬
분산 팽창 계수(Variance Inflation Factor, VIF)
공차 한계(Tolerance) 등이 있습니다.
→ VIF가 10 이상이거나 공차 한계가 매우 낮은 경우, 다중공선성이 문제가 될 수 있음을 나타냅니다.
다중공선성 문제를 해결하는 방법으로는 변수 선택, 주성분 분석(PCA)을 통한 차원 축소, 규제 방법(릿지, 라쏘 회귀 등)을 사용하는 것 등이 있습니다. 이러한 방법들은 모델의 예측력을 유지하면서 다중공선성의 영향을 줄이는 데 도움이 될 수 있습니다.
다중공선성(multicollinearity)은 선형 회귀 모델에서 두 개 이상의 독립 변수(특성) 간에 강한 상관 관계가 있을 때 발생합니다. 이 현상은 하나의 독립 변수가 다른 하나 또는 그 이상의 독립 변수와 높은 상관 관계를 보여, 모델의 계수 추정치가 불안정해지고 해석하기 어렵게 만듭니다.

다중공선성의 존재는 다음과 같은 방법으로 확인

1.
상관 행렬(Correlation Matrix): 데이터의 특성들 사이의 상관 관계를 보여주는 행렬입니다. 높은 상관계수(절대값이 0.8 이상)는 강한 선형 관계를 나타내며, 이는 다중공선성의 가능성을 시사합니다.
2.
분산 팽창 계수(Variance Inflation Factor, VIF): 다중공선성의 정도를 수치화합니다. VIF는 특정 독립 변수가 다른 독립 변수와 얼마나 선형적으로 관련되어 있는지를 측정합니다. 일반적으로 VIF 값이 10 이상이면 해당 변수는 다중공선성 문제를 야기할 수 있다고 간주됩니다. VIF는 다음 공식으로 계산됩니다:
VIFi=11Ri2 VIF_i = \frac{1}{1 - R_i^2}
Ri2R_i^2ii번째 독립 변수를 목표 변수로 하는 선형 회귀 모델의 결정 계수
1.
공차 한계(Tolerance): VIF의 역수로, 특성의 공차 한계가 낮을수록 다중공선성의 위험이 높습니다. 공차 한계는 특성이 다른 특성들에 의해 얼마나 설명될 수 있는지를 나타냅니다.

다중공선성 문제를 진단하고 확인한 후, 해결 방법

상관 관계가 높은 변수 제거: 상관 관계가 매우 높은 변수들 중 하나를 제거하여 모델에서 다중공선성을 줄일 수 있습니다.
주성분 분석(PCA): 원본 데이터를 변환하여 서로 독립적인 주성분으로 이루어진 새로운 특성 세트를 생성합니다. 이 방법은 데이터의 차원을 축소하고 다중공선성 문제를 해결하는 데 유용할 수 있습니다.
규제(Regularization): 릿지(Ridge) 또는 라쏘(Lasso) 회귀와 같은 규제 기법을 사용하면 계수에 페널티를 부여하여 다중공선성의 영향을 완화할 수 있습니다.
다중공선성은 모델의 정확성과 해석을 방해할 수 있으므로, 선형 회귀 모델을 사용할 때 이를 진단하고 적절히 처리하는 것이 중요합니다.