MLP기반 시계열 예측, TSMixer 논문 리뷰
Transformer 아키텍처는 NLP에서 굉장한 성능을 보여줬다. 그러나, 시계열 예측에서는 그렇지 않다. Transformer 기반의 모델로는 Autoformer, Informer 등이 있는데, 훈련하는 시간도 오래걸리고, 간단한 Linear Model이 benchmarket datasets 에서 더욱 좋은 성능을 보여줬다. 여기서 말하는benchmarket datasets란, 모델의 성능들을 비교할 수 있는 기본 데이터셋들을 의미한다.
TSMixer
Google Cloud AI Research 팀에서 TSMixer을 제안했다. TSMixer은 멀티레이어 퍼셉트론(MLP) 기반 모델이며, 시간과 특성 차원을 더 좋은 예측을 위해 섞는 방식이다.
TSMixer Training
우선, 시계열 예측에서 Cross-variate Information(교차변량정보)을 활용하면 더 좋은 예측을 할 수 있다. 예를 들어, 날씨를 예측할 때 기온만 사용하지 않고 기온, 습도, 풍속 등 다양한 요소를 고려하는 것이다. 즉, 다른 특성을 섞어 더 좋은 결과를 만든다.
이는 TSMixer를 만들어내는데 큰 역할을 했다. 실제로, TSMixer는 cross-variate feed-forward layers을 추가함으로써, 선형 모델의 능력을 확장시켰다. 구체적으로 알아보자.
Architecture of TSMixer
다행인건, TSMixer 아키텍처는 아래 그림만 보더라도 충분히 이해할 수 있다. TSMixer는 MLP, feed-forward 방식으로 진행된다.
Mixer Layer
시간을 섞는 Time mixing 과 특성을 섞는 Feature mixing이 있다.
- 먼저, 2D Batch Norm을 거친 시계열 데이터를 활용한다.
- Time을 열로, Feature을 행으로 전치(Transpose)한다.
- ReLU와 Dropout을 사용하는 MLP를 거치며, 일시적인 패턴을 학습한다.
- 다시 전치(Transpose)한다.
- Time Mixing부분에서 시간에 대해 학습했기 때문에, 이번에는 Feature에 대해 학습한다.
💡
두 개의 Mixer에서 2D Batch Norm과 Residual Connection을 사용한다. 2D Batch Norm은 빠른 학습과 학습 안정화가 목적이다. Residual Connection은 심층 신경망, 즉 더 깊은 신경망에서 학습 안정화를 위해, 기울기 소실 문제 완화를 위해 사용한다.
Temporal Projection
이제 예측값을 생성하기 위해 Temporal Projection 과정을 거친다. 또 한 번의 전치 후 Fully Connected를 거쳐 최종적으로 재전치해서 생성한다.
Conclusion
- TSMixer 은 Time과 Feature를 각각 전치해서 MLP로 학습하는 방식이다.
- 최종적으로 Temporal Projection을 거친 예측값을 보면, 다양한 변수에 대해 예측값을 생성할 수 있다. 이는 다변량 예측을 수행할 수 있게 한다.