Multivariate Time Series 데이터에서 자주 발생하는 결측값 문제가 시계열 데이터의 완전성을 해치고 효율적인 분석을 어렵게 한다는 문제를 다룹니다. 최근에는 딥러닝 기반의 보정 방법들이 손상된 시계열 데이터의 품질 개선에 있어 가시적인 성과를 보이고 있고, 이를 통해 Sub task의 성능이 크게 향상되었다고 합니다. 본 논문에서는 최근 제안된 딥러닝 보정 방법들에 대한 광범위한 조사를 실시합니다.
첫째로, 검토된 방법들을 분류하는 체계를 제안하고, 이 방법들의 장점과 단점을 강조하는 체계적 리뷰를 제공합니다. 이어서, 다양한 방법들을 실험하여 그들이 하위 작업에서 어떤 향상을 가져다주는지 비교합니다.
마지막으로, Multivariate Time Series 보정을 위한 미래 연구의 개방적인 주제들을 제시합니다. 이 연구의 모든 코드와 설정, 그리고 정기적으로 업데이트되는 다변량 시계열 보정 관련 논문 리스트는 GitHub 저장소에서 확인할 수 있습니다.
전통적으로 결측 데이터를 처리하기 위해 다양한 통계적 보정 방법들이 널리 사용되어 왔습니다. 이러한 방법들은 결측값을
•
통계치(예: 0값, 평균값, 마지막 관측값)
•
간단한 통계 모델들, ARIMA, ARFIMA, SARIMA 등으로 대체합니다.
•
또한, 회귀분석, K-최근접 이웃, 행렬 분해 등의 기계 학습 기법들이 다변량 시계열에서 결측값을 처리하기 위해 문헌에서 주목을 받았습니다.
이러한 접근법의 주요 구현에는 KNNI, TIDER, MICE 등이 포함됩니다. 통계 및 기계 학습 보정 방법들은 간단하고 효율적이지만, 시계열 데이터에 내재된 복잡한 시간적 관계와 변동 패턴을 포착하는 데에는 한계가 있어 성능이 제한적입니다.
KNNI, TIDER, MICE
Deep Learning for Multivariate Time Series Imputation: A Survey