2024 딥러닝/Time-series 논문 리뷰

[Time-series 논문 리뷰] Large Language Models Are Zero-Shot Time Series Forecasters (NeurIPS 2023)

융딩2 2024. 9. 29. 21:57

방법론의 목적

LLM을 backbone으로 활용하여 zero-shot 시계열 예측하기 위함

 

 

주목해야할 점

LLM에 들어가기 위한 전처리 방법들

 

 

방법론

  • 개념도 설명
    1. 데이터예시
      • [150, 153, 157, 155, 160, ...]
    2. 인코딩:
      • 시계열 데이터를 LLM이 이해할 수 있는 형식으로 변환
      • '150, 153, 157, 155, 160' → "1 5 0 , 1 5 3 , 1 5 7 , 1 5 5 , 1 6 0"
    3. 모델 입력:
      • LLM에 변환된 문자열을 입력
      • 모델은 이 입력을 기반으로 다음에 나올 값을 예측하는 '토큰' 예측 문제를 해결
      • "1 5 0 , 1 5 3 , 1 5 7 , 1 5 5 , 1 6 0"을 입력받고, 그 다음에 나올 값을 예측\
    4. 예측 샘플링:
      • LLM은 여러 번의 샘플링을 통해 다양한 예측 결과를 생성
      • [162, 165, 164, ...]와 같은 값들을 예측
      • 샘플링 결과는 불확실성을 반영한 다중 가능성을 제공
    5. 결과 추출:
      • 여러 샘플 중에서 대표값(예: 중간값)을 선택하여 최종 예측 결과로 사용 (deterministic)
      • 예측된 값들의 분포를 사용해 확률적 예측(예: 신뢰 구간)을 생성.(probablistic)

 

  • Tokenization
    • 1) 자리수마다 공백추가하여 tokenizing
      • 목적: 시계열 value (실수)를 text embedding으로 표현
        • 숫자가 조금만 바뀌어도 tokenizing이 완전히 바뀌는 문제를 해결위함 (GPT-3)
      • 방법: 각 시계열 value를 1개의 token으로 표현하는 것이 아닌, 자리수마다 공백을 추가하여 tokenizing
      • 예시
      • 효과
  • 2) 고정된 자리수로 값을 표현
    • 목적: 소수점을 입력으로 사용하지 않기 위함
    • 방법: Ex) 소수 둘째자리까지 표기 기준으로, 0.123, 1.23, 12.3, 123.0 → 1 2, 1 2 3, 1 2 3 0, 1 2 3 0 0 (각 시계열 value간 구분은 ‘,’를 이용)
    • 예시
  • Rescaling
    • 1) $\alpha$ - percentile rescaling
      • 목적: Token 수 줄이기 위함(소수점 아래 자리수를 고정했다는 가정하에)
        • 자리수가 넘어가는 경우에 대해서도 LLM이 인식할 수 있도록 도움을 주기 위함
      • 방법:  $\alpha$ - percentile 값이 1이 되도록 rescaling ($\alpha$, $\beta$ 는 하이퍼파라미터)
      • 예시
        • token수 줄일수있음에 대한 예시
        • 자리수 넘어가는 경우 LLM이 인식할수있도록 함에 대한 예시
  • Sampling/Forecasting
    • 1) Top-k value sampling
      • 방법: top-k 값 뽑기/ Sampling 조절을 위해 temperature scaling, logit bias, nucleus sampling을 수행
    • 2) Deterministic forecasting
      • 방법: sampling 된 value의 통계량을 사용 (Ex. median, mean)
    • 3) Probablistic forecasting
      • 방법: sampling 된 value를 통해 CRPS, NLL/D 등을 계산
  • Continuous likelihood
    • 목적: 시계열은 연속값이므로, LLM의 이산확률 모델을 연속확률 모델로 근사하기 위함
      • Continuous likelihood 개념을 통해, 연속적인 실수 값에 대한 예측을 이산 확률 변수를 통해 해결
    • 방법: 각 자리수마다의 값을 예측 (한번에 모든 값 예측X)

 

이 방법론의 장점

  • 제로샷 예측 가능
    • 대규모 사전 학습된 언어 모델의 특성을 시계열 데이터에 맞게 적용
  • 확률기반 예측 가능
    • 단순히 값을 예측하는 것뿐만 아니라, 확률 분포를 생성하여 시계열 값의 불확실성을 함께 예측
      • 모델은 주어진 숫자에 대해 다양한 샘플을 생성하고, 이를 기반으로 확률적인 예측을 수행
      • ⇒ 시계열 데이터의 변동성다양한 가능성을 반영한 예측

 

 


Reference

http://dsba.snu.ac.kr/seminar/?mod=document&pageid=1&keyword=llmtime&uid=2784