mRMR(minimum Redundancy Maximum Relevance)

mRMR(minimum Redundancy Maximum Relevance) 알고리즘 개요

mRMR 알고리즘은 머신러닝에서 **특징 선택(Feature Selection)**을 위해 자주 사용되는 필터 기반(Filter-based) 방법입니다. 많은 수의 특징(feature) 중에서 **목표 변수(클래스 변수)**와 최대한 관련성이 높으면서도, 이미 선택한 특징들과는 중복 정보가 최소가 되는 특징들을 선별하는 것을 목표로 합니다. 이를 통해 모델의 성능 향상, 해석력 증가, 계산 비용 감소, 과적합 방지 등 다양한 이점을 얻을 수 있습니다.

특히, 빅데이터 시대에 고차원 데이터셋이 증가함에 따라, 불필요한 특징들을 제거하고 핵심적인 특징만을 활용하는 것은 매우 중요한 과제가 되었습니다. mRMR 알고리즘은 이러한 문제 상황에서 효율적이고 직관적인 해결책을 제공합니다.

핵심 개념

mRMR 알고리즘은 두 가지 핵심 기준을 통해 특징을 선택합니다.

최대 관련성(Maximum Relevance):

선택된 특징들은 목표 변수(y)와의 관련성(relevance)이 최대화되어야 합니다. 즉, 각 특징

f_i

와 목표 변수 y사이의 상호 정보량(mutual information)을 계산하여, 이 값이 높은 특징을 우선적으로 선택합니다.

상호 정보량(Mutual Information, MI)은 두 확률 변수 간의 상호 의존도를 측정하는 지표로, 다음과 같이 정의됩니다.

I(f_i; y) = \sum_{f_i}\sum_{y} p(f_i, y)\log\frac{p(f_i, y)}{p(f_i)p(y)}

MI

가 클수록 해당 특징과 목표 변수 사이의 정보 의존성이 높음을 의미합니다.

최소 중복성(Minimum Redundancy):

선택된 특징들 사이의 중복성(redundancy)을 최소화해야 합니다. 이미 선택된 특징 집합 S 내의 특징들과 현재 후보 특징

f_i

사이의 상호 정보량 평균이 낮아야 합니다. 이는 비슷한 정보를 가진 특징을 중복해서 선택함으로써 모델이 쓸데없이 복잡해지는 것을 방지합니다.

특징 집합 S가 있을 때, 새로운 후보 특징

f_i

에 대한 중복성은 다음과 같이 계산할 수 있습니다.

\text{Redundancy}(f_i; S) = \frac{1}{|S|}\sum_{f_j \in S} I(f_i; f_j)

[그림으로 설명하면 좋을 곳]

(예: 그림 1) 목표 변수와 특징들 간의 정보 흐름과 특징들 간의 중복성을 나타내는 개략도를 제시할 수 있습니다. 타겟 변수 y를 중앙에 두고, 각 특징들이 서로 얼마나 정보적으로 겹치는지를 화살표 두께로 표현할 수 있습니다.

알고리즘 작동 원리

mRMR 알고리즘은 다음과 같은 절차로 작동합니다.

초기화(Initialization):

모든 특징 f1,f2,…,fnf_1, f_2, \ldots, f_n에 대해 목표 변수 yy와의 상호 정보량 I(fi;y)I(f_i; y)을 계산합니다.

첫 번째 특징 선택(First Feature Selection):

목표 변수와의 상호 정보량이 가장 큰 특징 하나를 첫 번째로 선택합니다. 예를 들어,

fi1=arg⁡max⁡fiI(fi;y)f_{i_1} = \arg\max_{f_i} I(f_i; y)

로 특징 집합 SS에 fi1f_{i_1}를 추가합니다.

반복적 특징 선택(Iterative Selection):

두 번째 특징부터는, 이미 선택된 특징 집합 SS와 목표 변수 yy를 고려하여 다음 점수를 최대화하는 특징을 선택합니다.

mRMR Score(fi)=I(fi;y)−1∣S∣∑fj∈SI(fi;fj)\text{mRMR Score}(f_i) = I(f_i; y) - \frac{1}{|S|}\sum_{f_j \in S} I(f_i; f_j)

이는 "최대 관련성 - 최소 중복성"이라는 mRMR 알고리즘의 기본 아이디어를 수식으로 표현한 것입니다.

반복적으로 위 공식을 최대화하는 특징을 하나씩 선택하며, 원하는 개수의 특징이 선택될 때까지 또는 사전에 정한 조건을 만족할 때까지 과정을 지속합니다.

장단점 분석

장점(Advantages):

•

계산 효율성: 상호 정보량 계산에 기반한 간단한 구조로, 고차원 데이터에서도 비교적 빠르게 동작합니다.

•

범용성: 범주형, 연속형 등 다양한 형태의 데이터에 적용할 수 있습니다.

•

해석력 증가: 선택된 특징들의 부분 집합은 목표 변수와 밀접하게 관련되며, 상호 중복성이 낮아 모델 해석력 향상에 기여합니다.

단점(Disadvantages):

•

탐욕적(Greedy) 접근: 단계별로 로컬 최적 선택을 하므로, 전역 최적의 특징 집합을 보장하지는 않습니다.

•

특징 간 복잡한 상호작용 간과: 단순한 상호 정보량 기반으로 특성을 평가하므로, 비선형적인 복합 상호작용을 완벽히 반영하기 어렵습니다.

•

특징 개수 결정 문제: 최적의 특징 개수를 미리 알기 어렵습니다.

응용 사례

mRMR 알고리즘은 다양한 분야에서 활발히 활용됩니다.

•

생물정보학(Bioinformatics): 고차원 유전자 발현 데이터에서 핵심 바이오마커 선별.

•

텍스트 마이닝(Text Mining): 텍스트 분류나 감정 분석을 위한 핵심 단어(토큰) 추출.

•

이미지 처리(Image Processing): 고해상도 이미지나 영상 데이터에서 유용한 특징 추출.

•

금융(Finance): 고객 행동 예측, 사기 탐지(Fraud Detection) 등에서 중요한 변수 선택.

[그림으로 설명하면 좋을 곳]

(예: 그림 2) 유전자 발현 데이터(수천~수만 개의 유전자)에서 mRMR 알고리즘을 적용해 중요한 유전자 몇 개를 선택하는 단계를 시각화할 수 있습니다.

Python을 이용한 mRMR 알고리즘 구현 예제

아래는 Python 환경에서 pymrmr 라이브러리를 활용한 mRMR 알고리즘의 간단한 예제입니다.

# 라이브러리 설치
# !pip install pymrmr

import pandas as pd
import pymrmr

# 예시 데이터 준비
data = pd.DataFrame({
    'Feature1': [1, 2, 3, 4, 5],
    'Feature2': [2, 3, 4, 5, 6],
    'Feature3': [1, 0, 1, 0, 1],
    'Class':    [0, 1, 0, 1, 0]  # 목표 변수
})

# mRMR을 사용하여 상위 2개 중요한 특징 선택
selected_features = pymrmr.mRMR(data, 'MIQ', 2)
print("선택된 특징:", selected_features)
Python
복사

실행 결과, 상위 2개의 특징이 선택되어 표시됩니다. 이 예제는 단순한 toy 데이터지만, 실제로는 수백, 수천 개의 특징을 가진 대규모 데이터셋에 적용하여 의미 있는 결과를 얻을 수 있습니다.

연습 문제

mRMR 알고리즘에서 "최대 관련성"과 "최소 중복성"의 개념을 상호 정보량을 이용해 설명해보세요.

실제 데이터셋(예: UCI 머신러닝 리포지토리 제공 데이터)을 활용하여 mRMR 알고리즘을 적용하고, 상위 5개의 특징을 선택하는 코드를 작성해보세요.

mRMR 알고리즘의 단점을 보완하기 위한 방법(예: 피처 상호작용 고려, 다른 의존성 측정 방법 활용)을 제안해보세요.

금융 데이터 분석(예: 고객 신용평가)에서 mRMR 알고리즘을 적용한다면 어떤 이점이 있을지 설명해보세요.

참고 자료

•

Peng, H., Long, F., & Ding, C. (2005). Feature selection based on mutual information: Criteria of max-dependency, max-relevance, and min-redundancy. IEEE Transactions on Pattern Analysis and Machine Intelligence, 27(8), 1226-1238.

•

Scikit-learn Feature Selection: https://scikit-learn.org/stable/modules/feature_selection.html

•

pymrmr GitHub Repository: https://github.com/lynzhu/PyMrmr

마무리

mRMR 알고리즘은 상호 정보량을 기반으로 한 명료한 특징 선택 기법으로, 다양한 도메인에서 적용 가치가 높습니다. 최대 관련성과 최소 중복성이라는 직관적 기준을 통해 중요한 특징 부분 집합을 선택함으로써, 모델의 성능과 해석력을 동시에 향상시킬 수 있습니다. 실제 현업이나 연구 환경에서 mRMR 알고리즘을 적극적으로 활용하여 데이터 분석 및 모델링의 효율성을 제고해보시기 바랍니다.