방법론의 목적
LLM을 backbone으로 활용하여 zero-shot 시계열 예측하기 위함
주목해야할 점
LLM에 들어가기 위한 전처리 방법들
방법론
- 개념도 설명
- 데이터예시
- [150, 153, 157, 155, 160, ...]
- 인코딩:
- 시계열 데이터를 LLM이 이해할 수 있는 형식으로 변환
- '150, 153, 157, 155, 160' → "1 5 0 , 1 5 3 , 1 5 7 , 1 5 5 , 1 6 0"
- 모델 입력:
- LLM에 변환된 문자열을 입력
- 모델은 이 입력을 기반으로 다음에 나올 값을 예측하는 '토큰' 예측 문제를 해결
- "1 5 0 , 1 5 3 , 1 5 7 , 1 5 5 , 1 6 0"을 입력받고, 그 다음에 나올 값을 예측\
- 예측 샘플링:
- LLM은 여러 번의 샘플링을 통해 다양한 예측 결과를 생성
- [162, 165, 164, ...]와 같은 값들을 예측
- 샘플링 결과는 불확실성을 반영한 다중 가능성을 제공
- 결과 추출:
- 여러 샘플 중에서 대표값(예: 중간값)을 선택하여 최종 예측 결과로 사용 (deterministic)
- 예측된 값들의 분포를 사용해 확률적 예측(예: 신뢰 구간)을 생성.(probablistic)
- 데이터예시
- Tokenization
- 1) 자리수마다 공백추가하여 tokenizing
- 목적: 시계열 value (실수)를 text embedding으로 표현
- 숫자가 조금만 바뀌어도 tokenizing이 완전히 바뀌는 문제를 해결위함 (GPT-3)
- 방법: 각 시계열 value를 1개의 token으로 표현하는 것이 아닌, 자리수마다 공백을 추가하여 tokenizing
- 예시
- 효과
- 목적: 시계열 value (실수)를 text embedding으로 표현
- 1) 자리수마다 공백추가하여 tokenizing
- 2) 고정된 자리수로 값을 표현
- 목적: 소수점을 입력으로 사용하지 않기 위함
- 방법: Ex) 소수 둘째자리까지 표기 기준으로, 0.123, 1.23, 12.3, 123.0 → 1 2, 1 2 3, 1 2 3 0, 1 2 3 0 0 (각 시계열 value간 구분은 ‘,’를 이용)
- 예시
- Rescaling
- 1) $\alpha$ - percentile rescaling
- 목적: Token 수 줄이기 위함(소수점 아래 자리수를 고정했다는 가정하에)
- 자리수가 넘어가는 경우에 대해서도 LLM이 인식할 수 있도록 도움을 주기 위함
- 방법: $\alpha$ - percentile 값이 1이 되도록 rescaling ($\alpha$, $\beta$ 는 하이퍼파라미터)
- 예시
- token수 줄일수있음에 대한 예시
- 자리수 넘어가는 경우 LLM이 인식할수있도록 함에 대한 예시
- token수 줄일수있음에 대한 예시
- 목적: Token 수 줄이기 위함(소수점 아래 자리수를 고정했다는 가정하에)
- 1) $\alpha$ - percentile rescaling
- Sampling/Forecasting
- 1) Top-k value sampling
- 방법: top-k 값 뽑기/ Sampling 조절을 위해 temperature scaling, logit bias, nucleus sampling을 수행
- 2) Deterministic forecasting
- 방법: sampling 된 value의 통계량을 사용 (Ex. median, mean)
- 3) Probablistic forecasting
- 방법: sampling 된 value를 통해 CRPS, NLL/D 등을 계산
- 1) Top-k value sampling
- Continuous likelihood
- 목적: 시계열은 연속값이므로, LLM의 이산확률 모델을 연속확률 모델로 근사하기 위함
- Continuous likelihood 개념을 통해, 연속적인 실수 값에 대한 예측을 이산 확률 변수를 통해 해결
- 방법: 각 자리수마다의 값을 예측 (한번에 모든 값 예측X)
- 목적: 시계열은 연속값이므로, LLM의 이산확률 모델을 연속확률 모델로 근사하기 위함
이 방법론의 장점
- 제로샷 예측 가능
- 대규모 사전 학습된 언어 모델의 특성을 시계열 데이터에 맞게 적용
- 확률기반 예측 가능
- 단순히 값을 예측하는 것뿐만 아니라, 확률 분포를 생성하여 시계열 값의 불확실성을 함께 예측
- 모델은 주어진 숫자에 대해 다양한 샘플을 생성하고, 이를 기반으로 확률적인 예측을 수행
- ⇒ 시계열 데이터의 변동성과 다양한 가능성을 반영한 예측
- 단순히 값을 예측하는 것뿐만 아니라, 확률 분포를 생성하여 시계열 값의 불확실성을 함께 예측
Reference
http://dsba.snu.ac.kr/seminar/?mod=document&pageid=1&keyword=llmtime&uid=2784