다중공선성(multicollinearity)은 선형 회귀 분석에서 사용되는 독립 변수들 사이에 높은 상관관계가 있을 때 발생하는 현상입니다.
변수간 높은 상관관계 때문에, 모델의 독립 변수가 다른 독립 변수의 변화를 예측하는데 영향을 미칠 경우, 모델의 계수(가중치) 추정이 불안정해지고 해석이 어려워질 수 있습니다.
즉, 다중공선성이 있는 경우 하나의 독립 변수의 값이 변할 때, 변수들이 서로 의존적이라는 것을 의미하며, 결과적으로 회귀 모델의 계수 추정치를 해석하기 어렵게 만들고, 모델의 정확성에 부정적인 영향을 미칠 수 있습니다.
수식을 통한 이해
회귀 모델에서 다중공선성을 수식으로 설명할 때는 일반적으로 다음과 같은 선형 회귀 모델을 고려합니다:
여기서, \(Y\)는 종속 변수, \(X_1, X_2, \cdots, X_n\)은 독립 변수, \(\beta_0, \beta_1, \cdots, \beta_n\)은 회귀 계수, 그리고 \(\epsilon\)은 오차 항을 나타냅니다.
다중공선성은 이 독립 변수들 중 하나 이상이 다른 독립 변수들의 선형 조합으로 근사될 수 있을 때 발생합니다. 예를 들어, 두 독립 변수 \(X_1\)과 \(X_2\)가 있을 때, 다음과 같은 관계가 있다고 가정해 봅시다:
\[ \]
이 경우, \(\)과 \(\) 사이에 강한 선형 관계가 있으며, 다중공선성이 존재한다고 할 수 있습니다.
모델 개선 방법
다중공선성 문제를 해결하기 위한 방법으로는 독립 변수들 간의 상관 관계를 줄이는 것이 있습니다. 이를 위해 다음과 같은 방법을 사용할 수 있습니다:
•
상관 관계가 높은 변수들 중 일부를 제거
•
주성분 분석(PCA) 같은 차원 축소 기법을 사용하여 서로 독립적인 새로운 변수들을 생성
•
정규화 기법(Lasso, Ridge 회귀 등)을 사용하여 변수들의 영향력을 조절
다중공선성은 모델의 안정성과 해석 가능성에 중요한 영향을 미치므로, 회귀 모델을 구축할 때 주의 깊게 고려해야 합니다.
다중공선성이 문제가 되는 주된 이유
1.
계수 추정의 불안정성: 높은 다중공선성을 가진 모델은 작은 데이터 변화에도 계수가 크게 변할 수 있습니다. 이는 모델의 예측력을 떨어뜨리고, 신뢰할 수 있는 결론을 도출하기 어렵게 만듭니다.
2.
해석의 어려움: 각 독립 변수의 효과를 개별적으로 분리해서 해석하는 것이 어렵기 때문에, 모델의 결과를 해석하고 이해하는 것이 더 복잡해집니다.
다중공선성의 존재를 확인하는 방법
•
상관 행렬
•
분산 팽창 계수(Variance Inflation Factor, VIF)
•
공차 한계(Tolerance) 등이 있습니다.
→ VIF가 10 이상이거나 공차 한계가 매우 낮은 경우, 다중공선성이 문제가 될 수 있음을 나타냅니다.
다중공선성 문제를 해결하는 방법으로는 변수 선택, 주성분 분석(PCA)을 통한 차원 축소, 규제 방법(릿지, 라쏘 회귀 등)을 사용하는 것 등이 있습니다. 이러한 방법들은 모델의 예측력을 유지하면서 다중공선성의 영향을 줄이는 데 도움이 될 수 있습니다.
다중공선성(multicollinearity)은 선형 회귀 모델에서 두 개 이상의 독립 변수(특성) 간에 강한 상관 관계가 있을 때 발생합니다. 이 현상은 하나의 독립 변수가 다른 하나 또는 그 이상의 독립 변수와 높은 상관 관계를 보여, 모델의 계수 추정치가 불안정해지고 해석하기 어렵게 만듭니다.
다중공선성의 존재는 다음과 같은 방법으로 확인
1.
상관 행렬(Correlation Matrix): 데이터의 특성들 사이의 상관 관계를 보여주는 행렬입니다. 높은 상관계수(절대값이 0.8 이상)는 강한 선형 관계를 나타내며, 이는 다중공선성의 가능성을 시사합니다.
2.
분산 팽창 계수(Variance Inflation Factor, VIF): 다중공선성의 정도를 수치화합니다. VIF는 특정 독립 변수가 다른 독립 변수와 얼마나 선형적으로 관련되어 있는지를 측정합니다. 일반적으로 VIF 값이 10 이상이면 해당 변수는 다중공선성 문제를 야기할 수 있다고 간주됩니다. VIF는 다음 공식으로 계산됩니다:
는 번째 독립 변수를 목표 변수로 하는 선형 회귀 모델의 결정 계수
1.
공차 한계(Tolerance): VIF의 역수로, 특성의 공차 한계가 낮을수록 다중공선성의 위험이 높습니다. 공차 한계는 특성이 다른 특성들에 의해 얼마나 설명될 수 있는지를 나타냅니다.
다중공선성 문제를 진단하고 확인한 후, 해결 방법
•
상관 관계가 높은 변수 제거: 상관 관계가 매우 높은 변수들 중 하나를 제거하여 모델에서 다중공선성을 줄일 수 있습니다.
•
주성분 분석(PCA): 원본 데이터를 변환하여 서로 독립적인 주성분으로 이루어진 새로운 특성 세트를 생성합니다. 이 방법은 데이터의 차원을 축소하고 다중공선성 문제를 해결하는 데 유용할 수 있습니다.
•
규제(Regularization): 릿지(Ridge) 또는 라쏘(Lasso) 회귀와 같은 규제 기법을 사용하면 계수에 페널티를 부여하여 다중공선성의 영향을 완화할 수 있습니다.
다중공선성은 모델의 정확성과 해석을 방해할 수 있으므로, 선형 회귀 모델을 사용할 때 이를 진단하고 적절히 처리하는 것이 중요합니다.