Time Series 18

[Time-series 논문 리뷰] UniTime: A Language-Empowered Unified Model for Cross-Domain Time Series Forecasting (WWW 2024)

Motivation기존 시계열 예측 모델은 도메인별 전용 학습에 의존해 데이터 간 공통 패턴을 활용하지 못함.도메인 간 데이터 특성 다양성, 혼동 문제, 학습 속도 불균형으로 인해 통합 모델 학습이 어려움.도메인 간 공통 패턴 학습 및 전이를 가능하게 하는 통합적이고 일반화 가능한 모델 필요. Contribution최초의 크로스-도메인 통합 시계열 모델 UniTime 제안자연어 기반 도메인 지침으로 도메인 혼동 해결.마스킹 기법으로 도메인 간 학습 속도 불균형 완화.언어와 시계열 데이터의 통합 학습 구조 설계Language-TS Transformer로 도메인 식별 및 데이터 일반화 구현.  Proposed Method Time Series Tokenizer역할: 시계열 데이터를 전처리하여 모델에 입력할 ..

[Time-series 논문 리뷰] Cross-Domain Contrastive Learning for Time Series Clustering (AAAI 2024)

MotivationRepresentation Learning과 Clustering의 분리 문제기존의 대부분의 시계열 클러스터링 기법은 representation learning 과 clustering과정을 분리하여 수행.이로 인해 클러스터링 손실이 데이터 표현 학습을 효과적으로 안내하지 못함.표현 학습 단계에서 얻어진 특징이 클러스터링에 최적화되지 않을 수 있음.주파수 도메인 정보의 미활용대부분의 기존 기법은 temporal domain 정보만 활용하며, frequency domain 데이터가 가지는 주기적 패턴이나 잡음 제거 특성을 간과.주파수 도메인은 주기적 특징을 더 잘 포착하며, 잡음이나 이상치에 덜 민감함.효율적인 End-to-End 방식의 부재기존방식은 여러 단계를 거쳐 클러스터링 결과를 생성..

[Time-series 논문 리뷰] TGAN-AD: Transformer-Based GAN for Anomaly Detection of Time Series Data

Motivation기존의 이상 탐지 방법은 종종 정확한 레이블이나 명확한 정의가 부족하고, 고차원 데이터를 처리하는 데 한계기존의 GAN 기반 이상 탐지 모델은 시계열 데이터의 문맥 정보를 효과적으로 추출하지 못하는 한계 ContributionTGAN-AD라는 새로운 모델을 제안Transformer 기반 GAN을 이용해 시계열 데이터의 문맥 정보를 효과적으로 추출할 수 있도록 설계.Generator와 Discriminator가 각각 Transformer로 구성되어 시계열 데이터의 시간적 상관관계와 숨겨진 패턴을 효율적으로 학습.Reconstruction Loss와 Discrimination Loss를 동시에 활용해 이상 점수를 계산.세 가지 공개 데이터셋(SWaT, WADI, KDDCup99)에서 실험을..

[Time-series 논문 리뷰] Large language models can be zero-shot anomaly detectors for time series? (DSAA 2024)

본 논문에서는 LLM을 활용하여 시계열 데이터에서 이상 탐지하는 방법을 제안하는데, 이를 위해 SIGLLM이라는 프레임워크 개발함. SIGLLM은 시계열 데이터를 text형식으로 변환해 LLM에 입력하고, 이를 기반으로 2가지 접근법을 사용하여 이상을 탐지함. (PROMPTER, DETECTOR) 1. 시계열 데이터 변환 과정 (LLMTIME과 유사)시계열 데이터를 LLM이 처리할 수 있도록 하기 위해 몇가지 전처리 과정을 거침.1) 스케일링(Scaling)- 데이터의 최솟값을 기준으로 값을 이동하여 비음수로 변환함.- 예를 들어, $X=(x_1, x_2, ... , x_T)$가 주어지면, 각 데이터 포인트에 대해 $x_{t}^{'}=x_t-min(X)$로 변환해 음수를 제거하고 데이터의 범위 조절 2)..

[Time-series 논문 리뷰] TimeCMA: Towards LLM-Empowered Time Series Forecasting via Cross-Modality Alignment

방법론의 목적 기존 prompt 기반 LLM이 데이터 얽힘 문제로 인해 성능저하 발생했기에,프롬프트 기반 LLM에서 얻은 얽힌 임베딩에서 시계열 정보와 단어 정보를 분리하고, 여러 변수 간의 의존성을 효과적으로 학습하여 더 나은 다변량 시계열 예측을 하기 위함  주목해야할 점 Dual-Modality Encoding (시계열과 시계열 값(숫자)를 포함한 prompt가 함께 input됨)  방법론  Dual-Modality Encoding1) Time Series Encoding Branch목적: 임베딩된 벡터를 인코더에 입력하여 여러 변수 간의 복잡한 시간적 의존성을 포착하기 위함방법: embedding → layer norm → multi-head attention→layer norm→FFN2) LLM..

[Time-series 논문 리뷰] LSTPrompt: Large Language Models as Zero-Shot Time Series Forecastersby Long-Short-Term Prompting

방법론의 목적 기존의 제로샷 TSF 프롬프트 전략은 TS 데이터를 숫자 문자열로 표현하고 TSF 작업을 텍스트 기반의 다음 토큰 예측으로 간주그러나 이러한 전략은 동적 TS 데이터에 내재된 정교한 예측 메커니즘의 필요성을 간과함.명확한 지침이 없으면 기존 전략은 높은 불확실성을 가진 부정확한 예측을 초래(=단순히 나열된 숫자만 가지고 다음을 예측하는 것은 예측에 필요한 다양한 요인들 고려안한것)  주목해야할 점 Chain-of-Thought, Time Breath  방법론 GPT-3.5 TurboGPT-4 사용 (best)  Time Decomposition1) Chain-of-Thought목적: TSF 작업을 체계적인 추론을 위함방법: 특정 dataset으로 task prompt → task를 장단기 ..

[Time-series 논문 리뷰] Large Language Models Are Zero-Shot Time Series Forecasters (NeurIPS 2023)

방법론의 목적LLM을 backbone으로 활용하여 zero-shot 시계열 예측하기 위함  주목해야할 점LLM에 들어가기 위한 전처리 방법들   방법론 개념도 설명데이터예시[150, 153, 157, 155, 160, ...]인코딩:시계열 데이터를 LLM이 이해할 수 있는 형식으로 변환'150, 153, 157, 155, 160' → "1 5 0 , 1 5 3 , 1 5 7 , 1 5 5 , 1 6 0"모델 입력:LLM에 변환된 문자열을 입력모델은 이 입력을 기반으로 다음에 나올 값을 예측하는 '토큰' 예측 문제를 해결"1 5 0 , 1 5 3 , 1 5 7 , 1 5 5 , 1 6 0"을 입력받고, 그 다음에 나올 값을 예측\예측 샘플링:LLM은 여러 번의 샘플링을 통해 다양한 예측 결과를 생성[162..

[Time-series 논문 리뷰]TranAD: Deep Transformer Networks for Anomaly Detection in Multivariate Time Series Data(VLDB, 2022)

- 2024.05.20 기준 311회 인용 - Transformer구조와 Adversarial training을 다변량 시계열 데이터에 접목시킨 연구  ∎ Contribution - Transformer 구조를 통해 기존 다변량 시계열 데이터에서의 anomaly detection 개선 - 전체적인 시점정보와 지역적 시점정보 모두 반영하여 시계열 데이터가 지닌 장단기 특징을 반영 - 두 개의 decoder를 지닌 구조로 Adversarial training을 통해 안정적인 학습 및 불량 탐지 효과 개선하여, 정상에 대해 좀 더 강건하고 일반화된 특징을 적절히 학습  1) Architecture - 1개의 Encoder와 2개의 Decoder로 구성 : Encoder는 기존의 Transformer구조와 동일..

[서베이 정리] A review on outlier/anomaly detection in time series data

1. INTRODUCTION 이상치란 ?단변량 시계열1형 이상치: 단일 관측치에 영향2형 이상치: 특정 관측치와 그 이후 관측치에 영향↓ 4종류 이상치로 확장 ↓다변량 시계열이상치의 관점 변화고전적 관점의 이상치다른 관측값과 너무 다르게 벗어나 의심을 불러일으키는 관측값시계열에서 이상치의 2가지 의미Unwanted data → Data cleaning잡음, 오류, 원하지 않는 데이터삭제, 수정ex. 센서 전송 오류; 정확한 예측 얻기 위해 제거Event of interest → outlier자체 분석이상하지만 흥미로운 현상 탐지 위함ex. 사기 탐지  2. A TAXONOMY OF OUTLIER DETECTION TECHNIQUES IN THE TIME SERIES CONTEXT 2.1 Input da..

[Time-series 논문 리뷰] Source-Free Domain Adaptation with Temporal Imputation for Time Series Data(KDD, 2023)

Abstractsource free domain adaptationsource data로 pretrain된 모델을, $x_t$로만 adaptation 시키는 것기존 연구 한계비전쪽에서는 널리 사용, but 시계열에서는 사용X비전쪽에서 설계된 기존 SFDA → 시계열의 동적 특성 처리X제안하는 것: MAPU소스 도메인의 시간 정보를 포착하기 위해, 우리의 방법은 시계열 신호에 무작위 마스킹을 수행하면서 임베딩 공간에서 마스킹된 버전에서 원래 신호를 복구하기 위해 새로운 시간적 이입자를 활용adaptation 단계에서, 이입자 네트워크는 소스 특성과 시간적으로 일관된 타겟 특성을 생성하도록 타겟 모델을 안내하는 데 사용1. INTRODUCTION[1] UDA 소개UDA?미리 라벨이 지정된 소스 데이터를 이용..