방법론의 목적
기존 prompt 기반 LLM이 데이터 얽힘 문제로 인해 성능저하 발생했기에,
프롬프트 기반 LLM에서 얻은 얽힌 임베딩에서 시계열 정보와 단어 정보를 분리하고, 여러 변수 간의 의존성을 효과적으로 학습하여 더 나은 다변량 시계열 예측을 하기 위함
주목해야할 점
Dual-Modality Encoding (시계열과 시계열 값(숫자)를 포함한 prompt가 함께 input됨)
방법론
- Dual-Modality Encoding
- 1) Time Series Encoding Branch
- 목적: 임베딩된 벡터를 인코더에 입력하여 여러 변수 간의 복잡한 시간적 의존성을 포착하기 위함
- 방법: embedding → layer norm → multi-head attention→layer norm→FFN
- 1) Time Series Encoding Branch
-
- 2) LLM-Empowered Encoding Branch
- 목적: 기존의 LLM 기반 방법들은 느린 추론 속도와 높은 메모리 사용량과 같은 문제 극복 위함
- 방법: prompt input → 일련의 토큰 id로 변환→LLM→prompt encoder(마지막 토큰 임베딩 저장)
- 2) LLM-Empowered Encoding Branch
- Cross-Modality Alignment
- 1) Cross-Modality Alignment
- 목적: 시계열 임베딩과 프롬프트 임베딩(H𝐶 및 L𝑁)을 정렬하기 위함
- 사전 학습된 LLM에서 학습된 지식을 시계열 임베딩으로 전이하여 모델 성능을 향상
- 방법: 3개의 선형레이어로 3가지 압축 임베딩으로 변환 → (채널별 임베딩) 행렬곱, softmax로 채널별 유사도 행렬 계산 → 선형레이어로 feature map크기를 H_T와 동일하게 변환→ H_T 행렬 덧셈
- 목적: 시계열 임베딩과 프롬프트 임베딩(H𝐶 및 L𝑁)을 정렬하기 위함
- 1) Cross-Modality Alignment
- Prompt 설계
실험결과 프롬프트의 마지막 토큰이 숫자 값인 경우, 예측 성능이 일반적으로 더 나은 것을 관찰
예를 들어 프롬프트 3, 4, 5가 이러한 경우에 해당 이 중에서 가장 성능이 좋은 것은 프롬프트 5. 프롬프트 5는 시계열의 추세를 추상화하여 예측에 유용합니다.
두 번째로 좋은 성능을 보인 것은 프롬프트 3인데, 시계열을 평균화하지만 잡음을 유발할 수 있어 예측이 최적화되지 않을 수 있음. 그다음은 프롬프트 2로, 이는 과거 시간 정보를 강조함. 시간보다는 값이 예측에 더 중요한 요소로 작용됨
이 방법론의 장점
- LLM을 이용한 제로샷 예측 가능
- 이때 prompt embedding만을 활용했을때보다 정확도 올라감
- 그 이유가 시계열값과 prompt임베딩을 따로따로 입력하고 정렬하는 과정이 있어서임
- 이때 prompt embedding만을 활용했을때보다 정확도 올라감