[Time-series 논문 리뷰] Large Language Models Are Zero-Shot Time Series Forecasters (NeurIPS 2023)

2024 딥러닝/Time-series 논문 리뷰

융딩2 2024. 9. 29. 21:57

방법론의 목적

LLM을 backbone으로 활용하여 zero-shot 시계열 예측하기 위함

주목해야할 점

LLM에 들어가기 위한 전처리 방법들

방법론

개념도 설명
1. 데이터예시
  - [150, 153, 157, 155, 160, ...]
2. 인코딩:
  - 시계열 데이터를 LLM이 이해할 수 있는 형식으로 변환
  - '150, 153, 157, 155, 160' → "1 5 0 , 1 5 3 , 1 5 7 , 1 5 5 , 1 6 0"
3. 모델 입력:
  - LLM에 변환된 문자열을 입력
  - 모델은 이 입력을 기반으로 다음에 나올 값을 예측하는 '토큰' 예측 문제를 해결
  - "1 5 0 , 1 5 3 , 1 5 7 , 1 5 5 , 1 6 0"을 입력받고, 그 다음에 나올 값을 예측\
4. 예측 샘플링:
  - LLM은 여러 번의 샘플링을 통해 다양한 예측 결과를 생성
  - [162, 165, 164, ...]와 같은 값들을 예측
  - 샘플링 결과는 불확실성을 반영한 다중 가능성을 제공
5. 결과 추출:
  - 여러 샘플 중에서 대표값(예: 중간값)을 선택하여 최종 예측 결과로 사용 (deterministic)
  - 예측된 값들의 분포를 사용해 확률적 예측(예: 신뢰 구간)을 생성.(probablistic)

Tokenization
- 1) 자리수마다 공백추가하여 tokenizing
  - 목적: 시계열 value (실수)를 text embedding으로 표현
    - 숫자가 조금만 바뀌어도 tokenizing이 완전히 바뀌는 문제를 해결위함 (GPT-3)
  - 방법: 각 시계열 value를 1개의 token으로 표현하는 것이 아닌, 자리수마다 공백을 추가하여 tokenizing
  - 예시
  - 효과

2) 고정된 자리수로 값을 표현
- 목적: 소수점을 입력으로 사용하지 않기 위함
- 방법: Ex) 소수 둘째자리까지 표기 기준으로, 0.123, 1.23, 12.3, 123.0 → 1 2, 1 2 3, 1 2 3 0, 1 2 3 0 0 (각 시계열 value간 구분은 ‘,’를 이용)
- 예시

Rescaling
- 1) $\alpha$ - percentile rescaling
  - 목적: Token 수 줄이기 위함(소수점 아래 자리수를 고정했다는 가정하에)
    - 자리수가 넘어가는 경우에 대해서도 LLM이 인식할 수 있도록 도움을 주기 위함
  - 방법: $\alpha$ - percentile 값이 1이 되도록 rescaling ( $\alpha$ , $\beta$ 는 하이퍼파라미터)
  - 예시
    - token수 줄일수있음에 대한 예시
    - 자리수 넘어가는 경우 LLM이 인식할수있도록 함에 대한 예시
Sampling/Forecasting
- 1) Top-k value sampling
  - 방법: top-k 값 뽑기/ Sampling 조절을 위해 temperature scaling, logit bias, nucleus sampling을 수행
- 2) Deterministic forecasting
  - 방법: sampling 된 value의 통계량을 사용 (Ex. median, mean)
- 3) Probablistic forecasting
  - 방법: sampling 된 value를 통해 CRPS, NLL/D 등을 계산
Continuous likelihood
- 목적: 시계열은 연속값이므로, LLM의 이산확률 모델을 연속확률 모델로 근사하기 위함
  - Continuous likelihood 개념을 통해, 연속적인 실수 값에 대한 예측을 이산 확률 변수를 통해 해결
- 방법: 각 자리수마다의 값을 예측 (한번에 모든 값 예측X)

이 방법론의 장점

확률기반 예측 가능
- 단순히 값을 예측하는 것뿐만 아니라, 확률 분포를 생성하여 시계열 값의 불확실성을 함께 예측
  - 모델은 주어진 숫자에 대해 다양한 샘플을 생성하고, 이를 기반으로 확률적인 예측을 수행
  - ⇒ 시계열 데이터의 변동성과 다양한 가능성을 반영한 예측

Reference

[Time-series 논문 리뷰] TimeCMA: Towards LLM-Empowered Time Series Forecasting via Cross-Modality Alignment (0)	2024.10.31
[Time-series 논문 리뷰] LSTPrompt: Large Language Models as Zero-Shot Time Series Forecastersby Long-Short-Term Prompting (0)	2024.09.29
[Time-series 논문 리뷰]TranAD: Deep Transformer Networks for Anomaly Detection in Multivariate Time Series Data(VLDB, 2022) (1)	2024.07.02
[서베이 정리] A review on outlier/anomaly detection in time series data (0)	2024.07.02
[Time-series 논문 리뷰] Source-Free Domain Adaptation with Temporal Imputation for Time Series Data(KDD, 2023) (0)	2024.04.25

현재글[Time-series 논문 리뷰] Large Language Models Are Zero-Shot Time Series Forecasters (NeurIPS 2023)

anomaly detection, Video, Time Series, 딥러닝, LLM, domain adaptation, Sleep Quality, EECS 498-007 / 598-005, distribution shift, 시계열 이상탐지, multivariate, unsupervised anomaly detection, time series forecasting, Self-distillation, time-series, source-free, test time adaptation, forecasting, fault diagnosis, 딥러닝 개념,

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

윤지