HOME
home
About
home

Deep Learning for Multivariate Time Series Imputation: A Survey

Multivariate Time Series 데이터에서 자주 발생하는 결측값 문제가 시계열 데이터의 완전성을 해치고 효율적인 분석을 어렵게 한다는 문제를 다룹니다. 최근에는 딥러닝 기반의 보정 방법들이 손상된 시계열 데이터의 품질 개선에 있어 가시적인 성과를 보이고 있고, 이를 통해 Sub task의 성능이 크게 향상되었다고 합니다. 본 논문에서는 최근 제안된 딥러닝 보정 방법들에 대한 광범위한 조사를 실시합니다. 첫째로, 검토된 방법들을 분류하는 체계를 제안하고, 이 방법들의 장점과 단점을 강조하는 체계적 리뷰를 제공합니다. 이어서, 다양한 방법들을 실험하여 그들이 하위 작업에서 어떤 향상을 가져다주는지 비교합니다. 마지막으로, Multivariate Time Series 보정을 위한 미래 연구의 개방적인 주제들을 제시합니다. 이 연구의 모든 코드와 설정, 그리고 정기적으로 업데이트되는 다변량 시계열 보정 관련 논문 리스트는 GitHub 저장소에서 확인할 수 있습니다.
전통적으로 결측 데이터를 처리하기 위해 다양한 통계적 보정 방법들이 널리 사용되어 왔습니다. 이러한 방법들은 결측값을
통계치(예: 0값, 평균값, 마지막 관측값)
간단한 통계 모델들, ARIMA, ARFIMA, SARIMA 등으로 대체합니다.
또한, 회귀분석, K-최근접 이웃, 행렬 분해 등의 기계 학습 기법들이 다변량 시계열에서 결측값을 처리하기 위해 문헌에서 주목을 받았습니다.
이러한 접근법의 주요 구현에는 KNNI, TIDER, MICE 등이 포함됩니다. 통계 및 기계 학습 보정 방법들은 간단하고 효율적이지만, 시계열 데이터에 내재된 복잡한 시간적 관계와 변동 패턴을 포착하는 데에는 한계가 있어 성능이 제한적입니다.
KNNI, TIDER, MICE

KNNI (K-Nearest Neighbors Imputation)

정의: KNNI는 결측치를 가진 데이터 포인트와 가장 가까운 K개의 이웃 데이터 포인트를 기반으로 결측치를 추정하는 방법입니다. 이웃 데이터 포인트의 값들을 이용해 평균, 중앙값, 가중치 평균 등으로 결측값을 대체할 수 있습니다.
사용 분야: 다변량 데이터셋에서 특히 유용하며, 소규모에서 중규모 데이터셋의 결측치 처리에 적합합니다.

TIDER (Temporal Interpolation for Data-driven Emission Reduction)

정의: TIDER는 최근에 제안된 방법으로, 특히 시계열 데이터의 결측치를 보간하는 데 초점을 맞춥니다. 시간적 패턴과 동적인 변화를 고려하여 결측치를 예측하고 보완합니다.
사용 분야: 주로 환경 데이터나 기후 데이터에서 발생하는 시계열 결측치 처리에 사용됩니다.

MICE (Multivariate Imputation by Chained Equations)

정의: MICE는 다변량 데이터의 결측치를 처리하기 위해 연쇄 방정식을 사용하는 방법입니다. 각 결측치가 있는 변수를 대상으로 조건부 분포를 설정하고, 반복적인 절차를 통해 결측치를 예측합니다. 이 방법은 각 변수 간의 관계를 고려하여 보다 정확한 결측치 예측을 가능하게 합니다.
사용 분야: 의료, 사회 과학, 경제학 등 다양한 분야에서 널리 사용됩니다.
이 방법들은 각기 다른 접근 방식을 통해 결측치 문제를 해결하려고 하며, 사용되는 데이터의 종류와 결측치의 특성에 따라 적합한 방법을 선택할 수 있습니다.