0. Abstract
- 트랜스포머 한계점
- joint distribution으로 시간에 따라 변하는 비정상적인 실세계 데이터에서 그 성능이 크게 저하
- 이전 연구 동향
- 예측 가능성 개선 위해, 원본 series의 비정상성 완화하는 stationarization 채택
- But, 본질적인 비정상성을 잃은 정규화된 series는 실세계의 갑작스러운 사건을 예측하는 데 대처 어려움
- ⇒ series의 예측 가능성과 모델 능력 사이의 딜레마를 해결하기 위해, 우리는 series stationarization와 non-stationary attention라는 두 개의 상호 의존적인 모듈을 가진 일반적인 프레임워크인 Non-stationary Transformer를 제안
1. Introduction
- Non-stationary time series
- 문제 정의: 시간이 지남에 따른 통계적 특성과 joint distribution의 지속적인 변화
- 또 다른 문제: 변화하는 분포에서 deep model이 잘 일반화되도록 하는 것
- 이전 연구 해결법: 시계열 stationary하여 전처리 (= raw 시계열의 비정상성 완화)
- 이전연구해결법 문제점: 비정상성 그냥 버리면 안됨
-
- 오히려 비정상을 뺀 정상화된 시리즈에서의 학습이 트랜스포머에 의해 학습된 attention의 구별을 약화시킴
- 그림 1(a): 서로 다른 시리즈의 구별된 시간적 의존성을 포착
- 그림 1(b): 구별할 수 없는 attention 생성(위 아래로 비교)
- 과도한 정상화로, 시간적 의존성을 포착하는 것을 실패
- 그림 1(c): 시계열 비정상성을 더 나은 예측 가능성으로 완화+모델 능력을 위한 과도한 정상화 문제를 동시에 완화
- 제안된 method: Nonstationary Transformer
- 2가지 상호의존 모듈
-
- 비정상적 시리즈의 예측 가능성을 높이기 위한 시리즈 정상화
- 추가 매개변수 없이 각 시리즈의 핵심 통계를 통합하는 단순하지만 효과적인 정규화 전략을 채택
-
- 과도한 정상화를 완화하기 위한 비정상적 attention
- 비정상화된 데이터의 attention을 근사하고 raw series의 본질적인 비정상성을 보상
-
- 2가지 상호의존 모듈
- Contribution
-
- 비정상적 시리즈의 예측 능력이 필수적임을 정제합니다. 상세한 분석을 통해, 우리는 현재의 정상화 접근법이 트랜스포머의 예측 능력을 제한하는 과도한 정상화 문제로 이어질 것임을 발견
-
- 시리즈를 더 예측 가능하게 만들고 원래 시리즈의 비정상성을 재통합하여 과도한 정상화 문제를 피하기 위한 Nonstationary Transformer를 일반적인 프레임워크로 제안
-
2. Related work
2.1 Stationarization for Time Series Forecasting
- 비정상성 해결방법
- ARIMA → differencing통해 정상화
- 딥러닝 모델들 → 널리 탐구되는 중
- Adaptive Norm: sampling된 set의 global통계 사용하여 각 series에 대해 z-score정규화 적용
- DAIN: 관찰된 훈련 분포와 함께 시계열을 적응적으로 정상화하기 위해 비선형 신경망 사용
- RevIN: 각 시리즈의 차이를 줄이기 위해 모델 입력과 출력을 각각 변환하는 두 단계 인스턴스 정규화를 도입