다중공산성(multicollinearity)

다중공선성(multicollinearity)은 선형 회귀 분석에서 사용되는 독립 변수들 사이에 높은 상관관계가 있을 때 발생하는 현상입니다.

변수간 높은 상관관계 때문에, 모델의 독립 변수가 다른 독립 변수의 변화를 예측하는데 영향을 미칠 경우, 모델의 계수(가중치) 추정이 불안정해지고 해석이 어려워질 수 있습니다.

즉, 다중공선성이 있는 경우 하나의 독립 변수의 값이 변할 때, 변수들이 서로 의존적이라는 것을 의미하며, 결과적으로 회귀 모델의 계수 추정치를 해석하기 어렵게 만들고, 모델의 정확성에 부정적인 영향을 미칠 수 있습니다.

수식을 통한 이해

회귀 모델에서 다중공선성을 수식으로 설명할 때는 일반적으로 다음과 같은 선형 회귀 모델을 고려합니다:

Y = \beta_0 + \beta_1X_1 + \beta_2X_2 + \cdots + \beta_nX_n + \epsilon

여기서, \(Y\)는 종속 변수, \(X_1, X_2, \cdots, X_n\)은 독립 변수, \(\beta_0, \beta_1, \cdots, \beta_n\)은 회귀 계수, 그리고 \(\epsilon\)은 오차 항을 나타냅니다.

다중공선성은 이 독립 변수들 중 하나 이상이 다른 독립 변수들의 선형 조합으로 근사될 수 있을 때 발생합니다. 예를 들어, 두 독립 변수 \(X_1\)과 \(X_2\)가 있을 때, 다음과 같은 관계가 있다고 가정해 봅시다:

X_1 \approx \alpha_0 + \alpha_1X_2

이 경우, \(

X_1

\)과 \(

X_2

\) 사이에 강한 선형 관계가 있으며, 다중공선성이 존재한다고 할 수 있습니다.

모델 개선 방법

다중공선성 문제를 해결하기 위한 방법으로는 독립 변수들 간의 상관 관계를 줄이는 것이 있습니다. 이를 위해 다음과 같은 방법을 사용할 수 있습니다:

•

상관 관계가 높은 변수들 중 일부를 제거

•

주성분 분석(PCA) 같은 차원 축소 기법을 사용하여 서로 독립적인 새로운 변수들을 생성

•

정규화 기법(Lasso, Ridge 회귀 등)을 사용하여 변수들의 영향력을 조절

다중공선성은 모델의 안정성과 해석 가능성에 중요한 영향을 미치므로, 회귀 모델을 구축할 때 주의 깊게 고려해야 합니다.

다중공선성이 문제가 되는 주된 이유

계수 추정의 불안정성: 높은 다중공선성을 가진 모델은 작은 데이터 변화에도 계수가 크게 변할 수 있습니다. 이는 모델의 예측력을 떨어뜨리고, 신뢰할 수 있는 결론을 도출하기 어렵게 만듭니다.

해석의 어려움: 각 독립 변수의 효과를 개별적으로 분리해서 해석하는 것이 어렵기 때문에, 모델의 결과를 해석하고 이해하는 것이 더 복잡해집니다.

다중공선성의 존재를 확인하는 방법

•

 상관 행렬

•

분산 팽창 계수(Variance Inflation Factor, VIF)

•

공차 한계(Tolerance) 등이 있습니다.

→ VIF가 10 이상이거나 공차 한계가 매우 낮은 경우, 다중공선성이 문제가 될 수 있음을 나타냅니다.

다중공선성 문제를 해결하는 방법으로는 변수 선택, 주성분 분석(PCA)을 통한 차원 축소, 규제 방법(릿지, 라쏘 회귀 등)을 사용하는 것 등이 있습니다. 이러한 방법들은 모델의 예측력을 유지하면서 다중공선성의 영향을 줄이는 데 도움이 될 수 있습니다.

다중공선성(multicollinearity)은 선형 회귀 모델에서 두 개 이상의 독립 변수(특성) 간에 강한 상관 관계가 있을 때 발생합니다. 이 현상은 하나의 독립 변수가 다른 하나 또는 그 이상의 독립 변수와 높은 상관 관계를 보여, 모델의 계수 추정치가 불안정해지고 해석하기 어렵게 만듭니다.

다중공선성의 존재는 다음과 같은 방법으로 확인

상관 행렬(Correlation Matrix): 데이터의 특성들 사이의 상관 관계를 보여주는 행렬입니다. 높은 상관계수(절대값이 0.8 이상)는 강한 선형 관계를 나타내며, 이는 다중공선성의 가능성을 시사합니다.

분산 팽창 계수(Variance Inflation Factor, VIF): 다중공선성의 정도를 수치화합니다. VIF는 특정 독립 변수가 다른 독립 변수와 얼마나 선형적으로 관련되어 있는지를 측정합니다. 일반적으로 VIF 값이 10 이상이면 해당 변수는 다중공선성 문제를 야기할 수 있다고 간주됩니다. VIF는 다음 공식으로 계산됩니다:

VIF_i = \frac{1}{1 - R_i^2}

 Ri2R_i^2Ri2​는 iii번째 독립 변수를 목표 변수로 하는 선형 회귀 모델의 결정 계수

공차 한계(Tolerance): VIF의 역수로, 특성의 공차 한계가 낮을수록 다중공선성의 위험이 높습니다. 공차 한계는 특성이 다른 특성들에 의해 얼마나 설명될 수 있는지를 나타냅니다.

다중공선성 문제를 진단하고 확인한 후, 해결 방법

•

상관 관계가 높은 변수 제거: 상관 관계가 매우 높은 변수들 중 하나를 제거하여 모델에서 다중공선성을 줄일 수 있습니다.

•

주성분 분석(PCA): 원본 데이터를 변환하여 서로 독립적인 주성분으로 이루어진 새로운 특성 세트를 생성합니다. 이 방법은 데이터의 차원을 축소하고 다중공선성 문제를 해결하는 데 유용할 수 있습니다.

•

규제(Regularization): 릿지(Ridge) 또는 라쏘(Lasso) 회귀와 같은 규제 기법을 사용하면 계수에 페널티를 부여하여 다중공선성의 영향을 완화할 수 있습니다.

다중공선성은 모델의 정확성과 해석을 방해할 수 있으므로, 선형 회귀 모델을 사용할 때 이를 진단하고 적절히 처리하는 것이 중요합니다.