2024 딥러닝/Time-series 논문 리뷰

[Time-series 논문 리뷰] When Model Meets New Normals: Test-time Adaptation for Unsupervised Time-series Anomaly Detection(AAAI, 2024)

융딩2 2024. 4. 24. 17:16

0. Abstract

  • 시계열 이상 감지
    • 관측치의 시퀀스로부터 정상성을 학습하여 이상한 시간 단계를 탐지하는 문제를 다룸
  • 정상성
    • 시간이 지남에 따라 발전하여, 훈련 데이터와 테스트 데이터 사이의 분포 변화로 인해 정상성의 분포가 변할 수 있는 "새로운 정상 문제"를 야기
    ⇒ 비지도 시계열 이상 감지 연구에서 새로운 정상 문제의 유병률을 강조
  • 제안점
    • trend 추정 중에 새로운 정상성을 학습하기 위한 self-supervised 접근 방식을 기반으로 한 단순하지만 효과적인 테스트 시간 적응 전략을 제안

1. Introduction

[1] 비지도 시계열 이상 감지 모델

  • 비지도 시계열 이상 감지 모델
    • 사용 가능한 훈련 데이터셋에서 정상 패턴을 학습하는 것에 중점
    • 정상성 개념; 시간이 지남에 따라 변할 수 있으며, 이는 훈련 데이터와 테스트 데이터 사이의 분포 이동으로 인해 발생
    • 분포 이동을 고려하지 않고 과거의 관찰에 의존하여 거짓 경보를 생성함으로써 모니터링 시스템의 일관성을 손상

[2] 제안: , test-time adaptation 메커니즘 적용

  • test-time adaptation 방법
    • 추가적인 라벨 감독이나 훈련 데이터 접근 없이도 다양한 데이터 분포에 일반화할 수 있도록 모델 매개변수를 업데이트
    • 시계열 이상 감지 작업 역시 test-time adaptation 전략을 적용할 동기를 공유하며, 모델 업데이트는 감독 없이 이루어지는 것이 바람직
    ⇒ 우리는 분포 이동 하에서 비지도 시계열 이상 감지를 위한 test-time adaptation을 제안

[3]

  • 시계열 이상 감지 문헌에서 새로운 정상 문제가 널리 존재한다는 것을 강조
  • 모델을 분포 이동에 강하게 만들어 검출기의 성능을 증가시킴

[4] Contribution

  • Contribution
    • 비지도 시계열 이상 감지 모델링에서 새로운 정상 문제가 상당한 도전을 제기
    • 시계열 데이터의 추세 추정을 따르고 비추세화된 시퀀스를 사용하여 모델 매개변수를 업데이트하는 간단하지만 효과적인 적응 전략을 제안
    • 다양한 실제 세계 데이터셋에서 광범위한 실험을 통해, 우리의 방법은 훈련 데이터와 테스트 데이터 사이의 심각한 분포 이동 문제에 직면했을 때 모델의 성능을 일관되게 향상

2. Related Works

2.1. Unsupervised time-series anomaly detection.

  • 사용 가능한 라벨의 부재를 가정하고, 정상성에서 크게 벗어난 관찰을 감지하는 것을 목표
  • 기존의 이상 감지 접근법과 딥러닝 기반 이상 감지 접근법의 범위 내에서, 비지도 시계열 이상 감지 모델은 시퀀스의 시간적 동역학을 모델링할 수 있는 아키텍처를 구축
  • 주요 카테고리
    • 재구성 기반 모델, 클러스터링 기반 모델, 예측 기반 모델
    • 재구성 기반 모델: LSTM, MLP, GAN,
    • 클러스터링 기반 모델: 일대일 서포트 벡터 머신 접근 방식의 확장, 이상 감지를 위한 텐서 분해 기반 클러스터링 방법, 클러스터링을 위한 잠재 표현의 활용
    • 예측 기반 모델(과거 시퀀스와 기준 라벨 사이의 상당한 편차를 식별함으로써 이상을 감지하는 데 의존): ARIMA, LSTM, 트랜스포머

2.2. Distribution shift in time-series data.

  • 시계열 예측(Kim et al. 2022b; Liu et al. 2022) 및 이상 감지(Sankararaman et al. 2022; Dragoi et al. 2022)와 같은 작업 내에서 분포 이동을 완화하는 것이 중요한 고려사항으로 부상
  • Online RNN-AD는 streaming data를 사용하여 이상 점수의 역전파를 통해 RNN 아키텍처로 모델을 업데이트함으로써 concept drift에 적응합니다.
  • 본 연구 제안
    • 모델 업데이트를 위한 detrending 모듈을 도입하고, self-attention으로 정상 인스턴스의 선택적 학습을 통해 기존 연구와 차별화
    • 과거 시퀀스에 대한 접근 가능성이라는 가정과 다름
    • 모델 매개변수를 직접 관리하고, 입력 시퀀스를 즉시 처리한 후 제거
  • 최근 다른 연구 해결 방식
    • 이상 감지를 위한 적응 가능한 프레임워크를 제안하고 있지만, 이는 과거 데이터 스트림에 적용된 동적 윈도우 메커니즘에 의존

2.3. Test-time adaptation.

  • 비지도 도메인 적응(Unsupervised Domain Adaptation) 방법들
    • 공변량 이동 문제를 해결하는 관점에서 이 논문의 연구와 일치
    • Test-Time Adaptation (UDA)
      • 기존 TTA 접근 방식들
        • 엔트로피 최소화
        • 가짜 레이블(Wang et al. 2022)을 사용하여 레이블이 없는 테스트 샘플을 사용하여 모델 매개변수를 업데이트
      ⇒ But 기존 TTA접근방식들을 unsupervised time-series anomaly detection에 직접적용X
      • 이 연구 TTA 접근 방식
        • 비지도 시계열 이상 감지 작업에 테스트 시간 적응 개념을 성공적으로 적용하고자함
        • (뒤에서 설명할듯)
    • → 모든 test sample사용하여 모델 업데이트시, 모델의 취약성 때문(이상 데이터가 모델기능 방해)
    • : 훈련 데이터에 접근X, inference 중에 레이블이 없는 테스트 샘플을 사용하여 실시간 적응을 통해 테스트 데이터에서의 모델 성능을 향상

3. Method

3.1. Problem Statement

[1] 새로운 정상문제 정의 (이 논문에서의 정상성 정의)

  • 비지도 시계열 이상 감지 목적
    • 테스트 시간 동안 이상 탐지하는 것을 목표
    • 이는 데이터에서 '정상'의 개념을 학습함으로써 이루어짐
  • 정상성 정의
    • 정상성은 주어진 작업에서 데이터 D에 대한 확률 분포 P로 정의
    • 정상적인 행동의 기본 법칙을 나타냄
    • 이상 집합: p(x)<ϵ인 확률이 충분히 작은 데이터로 정의
  • 새로운 정상 문제
    • 기본 분포P가 고정되지 않고 변한다는 현상
    • 즉, 훈련 분포P_train ≠테스트 분포P_test

[2] 시계열 이상 탐지 정의

  • 시계열 데이터의 표현

  • 이상 감지기의 목표

  • 훈련 및 테스트 인스턴스 집합
    • 훈련 시간 인스턴스 집합은Dtrain, 테스트 시간 인스턴스 집합은Dtest
  • 테스트 시간 정상 및 이상의 정의
    • 테스트 시간에서 정상은{X∈Dtest∣y=0}, 이상은{X∈Dtest∣y=1}로 정의

[3] 시계열 데이터 추출(슬라이딩 윈도우)

  • 시계열 데이터의 시간적 맥락 반영
    • 슬라이딩 윈도우로 데이터 전처리

 

3.2. Input Normalization Using Trend Estimate

  • trend estimation module의 목적
    • 시퀀스의 기본 역동성을 유지하면서 기존 trend에서 달라진 새로운 정상상태에 적응
    • trend estimation의 중요성
      • 이상치가 아닌데, trend 변화 후 적절한 adaptation없이 이상치로 분류될 수 있어서
  • trend-outlier 정의
    • trend estimation 공식
      • detrending 접근법
      • : 위와 같은 Moving-average접근법 사용해서 극단값을 평균으로 맞춰주기때문에 이상값 제거ㄱㄴ
        • 비정상 트렌드 구성 요소 제거
        • 평균 조정을 통해 비정상적인 트렌드 구성 요소를 제거하는 방법입니다.
        • 이 방법은 모델을 수치적 안정성으로 업데이트
        • 적용 예시
          • 모델은Xw,t 대신 디트렌드된 시퀀스 Xw,t−μt를 재구성하고, 최종 출력을 위해 추정된 트렌드를 추가하여 재구성된 시퀀스를 정규화
             

 

 

 

 

3.3. Model Update with New Normals

  • 테스트 시간 적응 및 모델 업데이트 목적
    • trend 추정만으로 완전히 포착불가능한 시계열 데이터의 역동성 학습
  • 논문 제안점
    • 테스트 시간 동안 정상 시퀀스만으로 모델 매개변수를 비지도 방식으로 지속 업데이트
      • 정상 인스턴스만 모델 업데이트에 통합
        • (trend estimate → 전체 시계열 사용)
        • 이 전략의 근거는 비지도 이상 감지기가 모델 배포 전에 정상 데이터를 사용하여 훈련된다는 가정에서 비롯됨
        (= 테스트 시간 동안 이상 샘플을 모델 업데이트에 포함시키면 모델의 성능에 부정적인 영향을 미칠 수 있습니다)
      • 상당한 변동이 있는 시나리오에서도 트렌드 추정을 가능하게 하기 위해, 이상 감지기에 의해 이상으로 예측될 수 있는 정상 인스턴스를 통합하는 것이 필수적3. Method[1] 새로운 정상문제 정의 (이 논문에서의 정상성 정의)

4. Experiments

4.1. Experiment Setups

Datasets.

  1. 시계열 이상 감지 문헌에서 널리 사용되는 데이터셋
    • SWaT: 수처리 시스템 시험대에서 수집된 51개 센서로부터의 11일간 측정치를 포함합니다.
  2. 일반적으로 사용되는 데이터셋에서 중요한 분포 변화를 보이는 부분 집합
    • SMD: 28개의 독립된 서버 기계로부터 5주간의 데이터와 38차원 센서 입력을 포함합니다. 분포 이동 문제가 있는 특정 서버 기계(기계 1-4와 기계 2-1)가 선택되었습니다.
    • MSL 및 SMAP: 우주선 모니터링 시스템에서 파생된 데이터셋으로, SMAP은 28개의 고유 기계에서 55개의 텔레메트리 채널 데이터를, MSL은 19개의 고유 기계에서 27개의 텔레메트리 채널 데이터를 포함합니다. 분포 이동이 있는 특정 기계(MSL P-15와 SMAP T-3)가 실험에 사용되었습니다.
  3. 상당한 분포 변화를 포함하는 데이터셋
    • WADI: 123개 센서로부터의 16일간 측정치를 포함하는 수처리 시스템 시험대에서 수집된 데이터셋입니다.
    • Yahoo: 실제(A1) 및 합성(A2, A3, A4) 데이터셋의 조합으로 구성되며, 분포 이동 문제를 보이는 특정 데이터셋(A1-R20과 A1-R55)에 초점을 맞추고 있습니다.
  4. 최소한의 분포 변화를 가진 데이터셋
    • CreditCard: 이틀간의 거래 로그를 포함하며, 시간과 거래 금액 정보와 함께 28개의 PCA 익명화된 특징을 포함합니다.

Baselines.

우리의 방법론은 다음 5가지 기준 모델과 비교됩니다:

  1. MLP 기반 오토인코더(MLP): 다층 퍼셉트론(MLP)을 기반으로 하는 오토인코더입니다.
  2. LSTMEncDec(LSTM): LSTM을 이용한 인코더-디코더 구조(Malhotra et al. 2016)입니다.
  3. USAD: 오토인코더를 활용한 이상 감지 방법(Audibert et al. 2020)입니다.
  4. THOC: 시계열 이상 감지를 위한 하이브리드 접근 방식(Shen, Li, and Kwok 2020)입니다.
  5. 이상치 변환기(AT): 변환기 아키텍처를 기반으로 하는 이상 감지 방법(Xu et al. 2022)입니다.

구현 및 설정 세부 사항:

  • LSTM, USAD, THOC는 각 논문의 설명을 바탕으로 재구현되었습니다.
  • 이상치 변환기(AT)의 경우 공식 구현이 실험에 사용되었습니다.
  • THOC, USAD, AT의 하이퍼파라미터와 기본 설정은 해당 논문에서 제공된 내용을 따랐습니다.
  • MLP와 LSTM은 기본적으로 128의 잠재 차원을 사용합니다.

모델 훈련 및 테스트 세부 사항:

  • 모든 접근 방식이 비지도적이므로, 모든 모델은 훈련 데이터셋의 정상 데이터를 기반으로 훈련되었습니다.
  • 테스트 시간 동안, 우리의 방법론은 훈련 시간과 동일한 크기의 비중첩 창(w개의 창)을 입력으로 받습니다.

하이퍼파라미터와 기타 세부 사항은 보충 자료에서 확인할 수 있습니다.

 

Evaluation metrics.

  1. F1-PA: 연속적인 비정상 구간 전체가 구간 내의 어떤 시점이라도 이상으로 분류되면 올바르게 이상으로 감지된 것으로 간주하는 지표입니다. 이 지표는 분류기의 성능을 과대평가할 수 있지만, 실질적인 정당화가 있습니다.
  2. 추가 평가 지표:
    • F1 점수: 각 개별 시점의 이상 감지 상태를 측정하며, 이상 감지기의 성능을 직접적으로 반영합니다.
    • AUROC (수신기 조작 특성 곡선 하의 면적): 모든 가능한 결정 임계값에서의 성능을 고려하여, 특정 임계값의 선택에 덜 민감한 지표입니다.
    • AUPRC (정밀도-재현율 곡선 하의 면적): 불균형 분류 시나리오에 적합한 지표로, 전체 성능의 요약을 제공합니다.
  3. 지표 보고:
    • 이 네 가지 주요 지표(F1-PA, F1 점수, AUROC, AUPRC)는 연구의 주요 결과로 보고됩니다.
    • 추가적인 지표(정확도, 정밀도, 재현율 등)는 연구의 보충 자료에서 상세히 다룹니다.

4.2. Comparison with Baselines

Main results.

  1. 성능 향상: 우리의 방법은 다양한 평가 지표를 통해 MLP 모델의 성능을 일관되게 향상시켰습니다.
    • WADI 데이터셋의 AUROC에서 최대 13% 개선
    • 분포 이동 문제가 있는 MSL(P-15)의 AUPRC에서 51% 개선
  2. 특정 데이터셋 성능:
    • Yahoo A1-R20: F1 점수 측면에서 가장 높은 성능 향상을 보였습니다(Fig. 2-(b) 참조).
    • CreditCard: 이 데이터셋은 최소한의 분포 이동 문제를 가지고 있어, 우리 방법으로는 미미한 개선만을 보였습니다.
  3. 성능 차이:
    • WADI 데이터셋: F1 성능이 기존 베이스라인에 비해 낮았으며, 이는 테스트 이상 점수에 대한 임계값 설정과 관련이 있습니다.
    • USAD 모델: WADI 훈련 데이터에 대한 최대 이상 점수는 0.225였으나, 보고된 F1 점수를 얻기 위한 임계값은 585.845로 상당히 높았습니다.
  4. 이상 변환기(AT)와의 비교:
    • 우리 방법은 최신 방법인 이상 변환기(AT)와 비교됐습니다.
    • AT는 F1-PA 측면에서 비슷한 성능을 보였지만, F1 점수, AUROC, AUPRC에서는 성능이 부족했습니다. 이는 이상 변환기가 특정 간격에서 긍정적인 예측을 생성하기 때문입니다.
  5. 기타 세부 사항:
    • 베이스라인의 테스트 시간 이상 점수에 대한 세부 정보는 연구의 보충 자료에서 제공됩니다.

 

Analysis on ROC and Precision-Recall curves.

  1. AUROC 성능: 우리의 방법은 SMD (M-1-4)를 제외한 모든 데이터셋에서 이전 방법들보다 AUROC 측면에서 일관되게 더 우수한 성능을 보였습니다.
  2. AUPRC 성능: WADI와 CreditCard를 제외한 모든 데이터셋에서 AUPRC 측면에서 이전 접근 방식들을 일관되게 능가했습니다.
  3. 임계값 설정의 민감성: 이전 기성 베이스라인들은 임계값 설정에 민감한 것으로 나타났습니다. 이는 최적의 임계값을 찾기 어려운 실제 상황에서 강건성을 유지하는 데 도전 과제를 제시합니다.
  4. 성능 시각화: 그림 5에 우리 접근 방식의 수신기 조작 곡선(ROC 곡선)과 정밀도-재현율 곡선이 기성 분류기 결과와 함께 시각화되어 있습니다. 이 시각화는 우리 접근 방식(빨간색)이 기성 분류기 결과(파란색)에 비해 현저하게 개선됨을 보여줍니다.

이러한 결과들은 우리의 방법이 이전 방법들에 비해 일관되게 더 우수하며, 특히 임계값 설정에 덜 민감하고 강건한 성능을 제공한다는 것을 시사합니다.