Paper Review

Transformer Architecture

트랜스포머란?

기존의 seq2seq 모델의 한계

트랜스포머 (Transformer) 의 주요 하이퍼파라미터

트랜스포머 구조

‘나’ 위의 그림은 인코더로부터 정보를 전달받아 디코더가 출력 결과를 만들어내는 트랜스포머 구조를 보여줍니다. 디코더는 마지 기존의 seq2seq 구조처럼 시작 심볼 <sos>를 입력으로 받아 종료 심볼 <eos>가 나올 때까지 연산을 진행합니다. 이는 RNN은 사용되지 않지만 여전히 인코더-디코더의 구조는 유지되고 였음을 보여줍니다. 이제 트랜스포머의 내부 구조를 조금씩 확대해가는 방식으로 트랜스포머를 이해해봅시다. 우선 인코더와 디코더의 구조를 이해하기 전에 트랜스포머의 입력에 대해서 이해해보겠습니다. 트랜스포머의 인코더와 디코더는 단순히 각 단어의 임베딩 벡터들을 입력받는 것이 아니라 임베딩 벡터에서 조정된 값을 입력받는데 이에 대해서 알아보기 위해 입력 부분을 확대해보겠습니다.

PAPER : : Mamba: Linear-Time Sequence Modeling with Selective State Spaces

Mamba: Linear-Time Sequence Modeling with Selective State Spaces

Chronos는 사전 훈련된 확률적 시계열 모델을 위한 간단하지만 효과적인 프레임워크입니다.

Chronos는 시계열 값을 스케일링과 양자화를 사용해 고정된 어휘집으로 토큰화하고, 이러한 토큰화된 시계열을 교차 엔트로피 손실을 통해 기존의 변환기 기반 언어 모델 구조에 훈련시킵니다.

20M에서 710M에 이르는 T5 계열의 Chronos 모델을 대규모 공개 데이터셋 컬렉션과 일반화를 개선하기 위해 가우시안 프로세스를 통해 생성한 합성 데이터셋에 사전 훈련시켰습니다. 42개의 데이터셋으로 구성된 광범위한 벤치마크에서, 기존 로컬 모델과 딥러닝 통틀어, Chronos 모델이 훈련 데이터셋의 일부였던 데이터셋에서 다른 방법들을 크게 능가하고, 특정 데이터셋에만 훈련된 방법들과 비교했을 때 새로운 데이터셋에 대한 제로샷 성능이 비슷하거나 때로는 우수함을 보여줍니다.

Chronos 모델이 다양한 도메인의 시계열 데이터를 활용하여 보이지 않는 예측 작업에 대한 제로샷 정확도를 향상시킬 수 있음을 보여주며, 사전 훈련된 모델을 예측 파이프라인을 크게 단순화할 수 있는 유망한 도구로 위치시킵니다.

Chronos: Learning the Language of Time Series

유튜브 CODE :

Pill of the week

This week is the time to give an overall view of the ARIMA model methodology, also called the Box-Jenkins method. We will link each step to previous issues of MLPills, so you can revise each step and become an ARIMA master!

The Box-Jenkins method, also known as the Box-Jenkins Methodology or the ARIMA (Autoregressive Integrated Moving Average) methodology, is a widely used approach for modelling and forecasting time series data.

It consists of the following three steps:

Let’s see each of them in more detail with some examples. Assume your time series data is in the column Value of your dataframe df. Its index is monthly data for several years.

Identification

This step involves analyzing the time series data to identify its characteristics and determine the appropriate ARIMA model. The key tasks in this step are:

Checking for stationarity: Time series data is considered stationary if its statistical properties (mean, variance, and autocorrelation) remain constant over time. If the data is non-stationary, differencing techniques are applied to make it stationary. You will use the Augmented Dickey-Fuller (ADF) test and the Kwiatkowski-Phillips-Schmidt-Shin (KPSS) test:

PAPER : https://arxiv.org/pdf/2402.04059.pdf

Multivariate Time Series 데이터에서 자주 발생하는 결측값 문제가 시계열 데이터의 완전성을 해치고 효율적인 분석을 어렵게 한다는 문제를 다룹니다. 최근에는 딥러닝 기반의 보정 방법들이 손상된 시계열 데이터의 품질 개선에 있어 가시적인 성과를 보이고 있고, 이를 통해 Sub task의 성능이 크게 향상되었다고 합니다. 본 논문에서는 최근 제안된 딥러닝 보정 방법들에 대한 광범위한 조사를 실시합니다. 첫째로, 검토된 방법들을 분류하는 체계를 제안하고, 이 방법들의 장점과 단점을 강조하는 체계적 리뷰를 제공합니다. 이어서, 다양한 방법들을 실험하여 그들이 하위 작업에서 어떤 향상을 가져다주는지 비교합니다. 마지막으로, Multivariate Time Series 보정을 위한 미래 연구의 개방적인 주제들을 제시합니다. 이 연구의 모든 코드와 설정, 그리고 정기적으로 업데이트되는 다변량 시계열 보정 관련 논문 리스트는 GitHub 저장소에서 확인할 수 있습니다.

전통적으로 결측 데이터를 처리하기 위해 다양한 통계적 보정 방법들이 널리 사용되어 왔습니다. 이러한 방법들은 결측값을

통계치(예: 0값, 평균값, 마지막 관측값)

간단한 통계 모델들, ARIMA, ARFIMA, SARIMA 등으로 대체합니다.

 또한, 회귀분석, K-최근접 이웃, 행렬 분해 등의 기계 학습 기법들이 다변량 시계열에서 결측값을 처리하기 위해 문헌에서 주목을 받았습니다. 

이러한 접근법의 주요 구현에는 KNNI, TIDER, MICE 등이 포함됩니다. 통계 및 기계 학습 보정 방법들은 간단하고 효율적이지만, 시계열 데이터에 내재된 복잡한 시간적 관계와 변동 패턴을 포착하는 데에는 한계가 있어 성능이 제한적입니다.

KNNI, TIDER, MICE

Deep Learning for Multivariate Time Series Imputation: A Survey

확률론 기초

확률론은 여러 분야에서 광범위하게 활용되며, 그 중요성은 계속해서 증가하고 있습니다. 유전학, 물리학, 계량경제학, 금융, 역사학, 정치학 뿐만 아니라 인문학과 사회과학에서도 마찬가지입니다. 도박과 게임 또한 확률론이 중점적으로 다루는 주제 중 하나로, 역사적으로 페르마와 파스칼 같은 수학자들에 의해 연구되었습니다. 확률론은 불확실성을 계량화함으로써, 우리가 세계를 이해하는 데 중요한 도구입니다.

표본공간(sample space): 특정 시행에서 가능한 모든 결과의 집합을 의미합니다.

사건(event): 표본공간의 부분집합으로, 하나 이상의 결과를 포함할 수 있습니다.

확률의 기본 가정은 모든 사건이 발생할 확률이 동일하며, 표본공간이 유한하다는 것입니다. 이 가정은 모든 상황에 적용될 수 있는 것은 아니므로, 특정 상황에서는 이 가정에 기반한 확률을 적용하는 것이 부적절할 수 있습니다.

셈 원리(Counting Principle): 복잡한 확률 문제를 해결하기 위한 기본적인 원칙입니다.

곱의 법칙(Multiplication Rule): 여러 단계에 걸친 시행에서 각 단계에서 발생 가능한 경우의 수가 (n1,n2,...,nr)(n_1, n_2, ..., n_r)(n1​,n2​,...,nr​)일 때, 전체 시행에서 발생 가능한 모든 경우의 수는 (n1×n2×...×nr)(n_1 \times n_2 \times ... \times n_r)(n1​×n2​×...×nr​)입니다.

이항계수(Binomial Coefficient): 크기가 \(n\)인 집합에서 크기가 \(k\)인 부분집합을 만들 수 있는 방법의 수입니다. 이는  (nk)=n!(n−k)!k!\binom{n}{k} = \frac{n!}{(n-k)!k!}(kn​)=(n−k)!k!n!​ 로 표현됩니다.

순서와 복원 여부에 따라 다르게 적용되는 표본 추출 방법도 중요한 개념입니다. 이는 특정 상황에서 표본을 선택하는 방법을 정의하며, 확률론적 접근 방식에서 기본적인 역할을 합니다.

Probability and Counting