Boruta 알고리즘 종합 정리

변수 선택(Feature Selection)은 머신러닝 모델링 과정에서 매우 중요한 단계입니다. 많은 특징 중에서 불필요하거나 중복되는 변수를 제거하면 모델의 과적합(overfitting)을 줄이고, 계산 비용과 학습 시간을 절약하며, 모델 해석력을 높이고 예측 성능을 향상시킬 수 있습니다. 변수 선택 방법은 크게 Filter, Wrapper, Embedded 세 가지로 나눌 수 있으며, 각각 통계적 특성 이용, 모델 성능 기반 최적화, 모델 학습 과정 내의 변수 선택이라는 특징을 가집니다.

•

*Boruta 알고리즘(Boruta Algorithm)**은 이러한 변수 선택 방법론 중 Wrapper 방식에 해당하며, 특히 Random Forest 기반의 특징 선택 알고리즘으로 알려져 있습니다. 2010년 Kursa와 Rudnicki에 의해 제안된 이 알고리즘의 목표는 모든 관련 특징(all-relevant features)을 탐지하는 것입니다. 즉, 단지 최소한의 "필수" 변수만 고르는 것이 아니라, 모델 성능에 유의미한 영향을 주는 모든 변수를 포착하려고 합니다. 이를 통해 중요한 변수를 놓치지 않고 최대한 확보할 수 있으며, 해석 가능성과 예측력을 동시에 확보할 수 있습니다.

작동 원리

Boruta 알고리즘은 Random Forest의 변수 중요도(Variable Importance)를 핵심 지표로 활용합니다. 일반적으로 Random Forest는 각 특징이 트리 모델에서 분기(split)를 통해 불순도(impurity)를 얼마나 감소시켰는지(Mean Decrease in Impurity, MDI) 등을 기반으로 변수 중요도를 계산합니다. Boruta 알고리즘은 여기에 Shadow 특징이라는 아이디어를 도입하여, 원본 특징들이 정말로 의미 있는지 통계적으로 검증합니다.

작동 과정은 다음과 같이 정리할 수 있습니다.

Shadow 특징 생성: 원본 특징들의 복사본을 무작위로 섞어(셔플) 의미 없는 Shadow 특징들을 만듭니다.

[그림으로 설명하면 좋을 곳] 여기서 원본 특징들의 값이 랜덤하게 섞인 Shadow 특징들은 실제로 아무런 정보도 담지 않기 때문에, 이들 Shadow 특징은 "무의미한 기준점" 역할을 하게 됩니다.

확장된 데이터셋 학습: 원본 특징 + Shadow 특징을 합친 확장된 데이터셋으로 Random Forest를 학습시키고, 모든 특징(원본+Shadow)에 대한 변수 중요도를 계산합니다.

중요도 비교: Shadow 특징들 중 가장 중요도가 높은 값을 기준점(임계값)으로 삼습니다. 이 값은 정보가 전혀 없는 특징들 중에서도 가장 "운 좋게" 중요도가 높게 나온 Shadow 특징을 의미하므로, 실제 특징이 이 임계값보다 유의미하게 높다면 "진정한 중요성"이 있다고 볼 수 있습니다.

수식으로 표현하면, 원본 특징들의 중요도 집합을

I={I1,I2,…,Ip}I = \{I_1, I_2, \ldots, I_p\}

라 하고, Shadow 특징들의 중요도 집합을

Ishadow={I1(S),…,Ip(S)}I_{shadow} = \{I_1^{(S)}, \ldots, I_p^{(S)}\}

라 할 때, Shadow 특징들 중 최대 중요도를

I_{MZSA} = \max I_{shadow}

라고 정의합니다.

여기서

IMZSAI_{MZSA} (Maximum Z-score Among Shadow Attributes)

는 비교 기준 임계값이 됩니다.

통계적 검정 및 반복: 원본 특징의 중요도가 IMZSAI_{MZSA}보다 큰 경우 히트(hit) 카운트를 올리는 식으로 반복 실험을 거치며, 이를 통계 검정(예: 이항검정)을 통해 유의성을 판별합니다. 충분히 많은 반복(Iteration)을 거쳐, 특정 특징이 통계적으로 유의하게 IMZSAI_{MZSA}보다 크다면 그 특징은 "확정(confirmed)"되고, 계속 넘지 못하면 "제거(rejected)"됩니다. 아직 불확실한 경우 "보류(tentative)" 상태로 남아 추가 반복을 수행합니다.

이 과정을 통해 확실히 중요한 특징, 명백히 중요하지 않은 특징, 아직 판단이 필요한 특징으로 나누고, "보류" 특징에 대해 반복적으로 Shadow 특징 비교 과정을 수행함으로써 최종적으로 모든 특징에 대해 결정이 내려집니다.

장단점

장점:

•

All-relevant 방식: 단순히 최소한의 최적 변수 집합을 찾는 것이 아니라, 관련된 모든 변수를 찾아내어 놓치지 않습니다.

•

랜덤 포레스트 기반: 비선형 관계나 변수 간 상호작용을 잘 포착하고, 앙상블 특성으로 안정적인 변수 중요도 측정을 기대할 수 있습니다.

•

Shadow 특징 비교: 무의미한 기준선을 통해 변수 중요도를 상대적으로 평가함으로써 통계적 신뢰성을 확보합니다.

단점:

•

계산 비용: 여러 번의 Random Forest 재학습이 필요하므로 계산량이 큽니다. 대규모 데이터셋이나 고차원 문제에서 실행 시간이 오래 걸릴 수 있습니다.

•

민감성: 파라미터(최대 반복 횟수, 유의 수준 등)에 따라 결과가 달라질 수 있습니다.

Python 구현 예시

아래 예시는 BorutaPy 라이브러리를 통해 Boruta 알고리즘을 간단히 적용하는 코드입니다. 실제 데이터에 따라 파라미터 조정 및 전처리가 필요할 수 있습니다.

!pip install boruta

from sklearn.ensemble import RandomForestClassifier
from boruta import BorutaPy
import numpy as np
import pandas as pd

# 예제 데이터 생성
np.random.seed(42)
X = pd.DataFrame(np.random.rand(100, 10), columns=[f'feature_{i}' for i in range(10)])
y = np.random.randint(0, 2, 100)

# Random Forest 모델 정의
rf = RandomForestClassifier(n_estimators=100, random_state=42)

# Boruta 알고리즘 적용
boruta_selector = BorutaPy(rf, n_estimators='auto', verbose=2, random_state=42)
boruta_selector.fit(X.values, y)

# 결과 확인
print("Selected Features:", X.columns[boruta_selector.support_])
print("Tentative Features:", X.columns[boruta_selector.support_weak_])
Python
복사

결론

Boruta 알고리즘은 Wrapper 방법론 중에서도 Random Forest를 기반으로 한 고급 특징 선택 기법으로, "필요한 모든 관련 변수"를 식별하는 것을 목표로 합니다. Shadow 특징 비교를 통해 원본 특징의 중요도를 통계적으로 검증하며, 다양한 형태의 데이터(비선형, 복합 상호작용)에 강건한 결과를 제시합니다. 다만 계산량이 많고 파라미터 설정이 중요한 점을 주의해야 하며, 실제 문제에 적용할 때는 데이터 특성과 해석 목적에 따라 적절한 검증과 튜닝 과정이 필요합니다.

[그림으로 설명하면 좋을 곳]: Boruta 알고리즘을 시각적으로 표현할 때, (1) 원본 특징들과 Shadow 특징들의 중요도 분포(히스토그램 또는 상자 그림)를 통해 중요도 임계값을 설정하는 과정을 그림으로 나타낼 수 있습니다. 이로써 독자들은 Shadow 특징을 기준으로 실제 특징을 평가하는 Boruta 알고리즘의 핵심 아이디어를 직관적으로 이해할 수 있습니다.

아래는 이전에 제시된 내용들을 종합하여 Boruta 알고리즘에 대해 정리한 설명입니다. 설명은 문단 중심으로 제공되며, 필요한 경우 수식 및 그림(시각적 설명이 필요한 부분 표시)으로 개념을 보완하는 형태를 제안합니다.

Boruta 알고리즘 종합 정리

•

*Boruta 알고리즘(Boruta Algorithm)**은 이러한 변수 선택 방법론 중 Wrapper 방식에 해당하며, 특히 Random Forest 기반의 특징 선택 알고리즘으로 알려져 있습니다. 2010년 Kursa와 Rudnicki에 의해 제안된 이 알고리즘의 목표는 모든 관련 특징(all-relevant features)을 탐지하는 것입니다. 즉, 단지 최소한의 "필수" 변수만 고르는 것이 아니라, 모델 성능에 유의미한 영향을 주는 모든 변수를 포착하려고 합니다. 이를 통해 중요한 변수를 놓치지 않고 최대한 확보할 수 있으며, 해석 가능성과 예측력을 동시에 확보할 수 있습니다.

작동 원리

작동 과정은 다음과 같이 정리할 수 있습니다.

Shadow 특징 생성: 원본 특징들의 복사본을 무작위로 섞어(셔플) 의미 없는 Shadow 특징들을 만듭니다.

확장된 데이터셋 학습: 원본 특징 + Shadow 특징을 합친 확장된 데이터셋으로 Random Forest를 학습시키고, 모든 특징(원본+Shadow)에 대한 변수 중요도를 계산합니다.

중요도 비교: Shadow 특징들 중 가장 중요도가 높은 값을 기준점(임계값)으로 삼습니다. 이 값은 정보가 전혀 없는 특징들 중에서도 가장 "운 좋게" 중요도가 높게 나온 Shadow 특징을 의미하므로, 실제 특징이 이 임계값보다 유의미하게 높다면 "진정한 중요성"이 있다고 볼 수 있습니다.

수식으로 표현하면, 원본 특징들의 중요도 집합을 I={I1,I2,…,Ip}I = \{I_1, I_2, \ldots, I_p\}라 하고, Shadow 특징들의 중요도 집합을 Ishadow={I1(S),…,Ip(S)}I_{shadow} = \{I_1^{(S)}, \ldots, I_p^{(S)}\}라 할 때, Shadow 특징들 중 최대 중요도를

IMZSA=max⁡IshadowI_{MZSA} = \max I_{shadow}

라고 정의합니다. 여기서 IMZSAI_{MZSA} (Maximum Z-score Among Shadow Attributes)는 비교 기준 임계값이 됩니다.

통계적 검정 및 반복: 원본 특징의 중요도가 IMZSAI_{MZSA}보다 큰 경우 히트(hit) 카운트를 올리는 식으로 반복 실험을 거치며, 이를 통계 검정(예: 이항검정)을 통해 유의성을 판별합니다. 충분히 많은 반복(Iteration)을 거쳐, 특정 특징이 통계적으로 유의하게 IMZSAI_{MZSA}보다 크다면 그 특징은 "확정(confirmed)"되고, 계속 넘지 못하면 "제거(rejected)"됩니다. 아직 불확실한 경우 "보류(tentative)" 상태로 남아 추가 반복을 수행합니다.

장단점

장점:

•

All-relevant 방식: 단순히 최소한의 최적 변수 집합을 찾는 것이 아니라, 관련된 모든 변수를 찾아내어 놓치지 않습니다.

•

랜덤 포레스트 기반: 비선형 관계나 변수 간 상호작용을 잘 포착하고, 앙상블 특성으로 안정적인 변수 중요도 측정을 기대할 수 있습니다.

•

Shadow 특징 비교: 무의미한 기준선을 통해 변수 중요도를 상대적으로 평가함으로써 통계적 신뢰성을 확보합니다.

단점:

•

계산 비용: 여러 번의 Random Forest 재학습이 필요하므로 계산량이 큽니다. 대규모 데이터셋이나 고차원 문제에서 실행 시간이 오래 걸릴 수 있습니다.

•

민감성: 파라미터(최대 반복 횟수, 유의 수준 등)에 따라 결과가 달라질 수 있습니다.

활용 분야

•

생물정보학(Bioinformatics): 고차원 유전자 데이터에서 중요한 바이오마커를 찾는 데 유용합니다.

•

의료 진단(Medical Diagnosis): 환자 특성 중 질병 진단에 중요한 변수를 식별하여 진단 정확도와 해석력을 높일 수 있습니다.

•

금융(Finance): 신용평가나 사기 탐지 모델에서 중요한 변수 선별을 통해 모델의 신뢰성 및 규제 준수성(해석력)을 확보할 수 있습니다.

•

텍스트 마이닝(Text Mining): 문서 분류나 감성 분석을 위한 중요한 단어(특징)를 선택하는데 활용 가능합니다.

Python 구현 예시

!pip install boruta

from sklearn.ensemble import RandomForestClassifier
from boruta import BorutaPy
import numpy as np
import pandas as pd

# 예제 데이터 생성
np.random.seed(42)
X = pd.DataFrame(np.random.rand(100, 10), columns=[f'feature_{i}' for i in range(10)])
y = np.random.randint(0, 2, 100)

# Random Forest 모델 정의
rf = RandomForestClassifier(n_estimators=100, random_state=42)

# Boruta 알고리즘 적용
boruta_selector = BorutaPy(rf, n_estimators='auto', verbose=2, random_state=42)
boruta_selector.fit(X.values, y)

# 결과 확인
print("Selected Features:", X.columns[boruta_selector.support_])
print("Tentative Features:", X.columns[boruta_selector.support_weak_])
Python
복사