0. Abstract
- 시계열 이상 감지
- 관측치의 시퀀스로부터 정상성을 학습하여 이상한 시간 단계를 탐지하는 문제를 다룸
- 정상성
- 시간이 지남에 따라 발전하여, 훈련 데이터와 테스트 데이터 사이의 분포 변화로 인해 정상성의 분포가 변할 수 있는 "새로운 정상 문제"를 야기
- 제안점
- trend 추정 중에 새로운 정상성을 학습하기 위한 self-supervised 접근 방식을 기반으로 한 단순하지만 효과적인 테스트 시간 적응 전략을 제안
1. Introduction
[1] 비지도 시계열 이상 감지 모델
- 비지도 시계열 이상 감지 모델
- 사용 가능한 훈련 데이터셋에서 정상 패턴을 학습하는 것에 중점
- 정상성 개념; 시간이 지남에 따라 변할 수 있으며, 이는 훈련 데이터와 테스트 데이터 사이의 분포 이동으로 인해 발생
- 분포 이동을 고려하지 않고 과거의 관찰에 의존하여 거짓 경보를 생성함으로써 모니터링 시스템의 일관성을 손상
[2] 제안: , test-time adaptation 메커니즘 적용
- test-time adaptation 방법
- 추가적인 라벨 감독이나 훈련 데이터 접근 없이도 다양한 데이터 분포에 일반화할 수 있도록 모델 매개변수를 업데이트
- 시계열 이상 감지 작업 역시 test-time adaptation 전략을 적용할 동기를 공유하며, 모델 업데이트는 감독 없이 이루어지는 것이 바람직
[3]
- 시계열 이상 감지 문헌에서 새로운 정상 문제가 널리 존재한다는 것을 강조
- 모델을 분포 이동에 강하게 만들어 검출기의 성능을 증가시킴
[4] Contribution
- Contribution
- 비지도 시계열 이상 감지 모델링에서 새로운 정상 문제가 상당한 도전을 제기
- 시계열 데이터의 추세 추정을 따르고 비추세화된 시퀀스를 사용하여 모델 매개변수를 업데이트하는 간단하지만 효과적인 적응 전략을 제안
- 다양한 실제 세계 데이터셋에서 광범위한 실험을 통해, 우리의 방법은 훈련 데이터와 테스트 데이터 사이의 심각한 분포 이동 문제에 직면했을 때 모델의 성능을 일관되게 향상
2. Related Works
2.1. Unsupervised time-series anomaly detection.
- 사용 가능한 라벨의 부재를 가정하고, 정상성에서 크게 벗어난 관찰을 감지하는 것을 목표
- 기존의 이상 감지 접근법과 딥러닝 기반 이상 감지 접근법의 범위 내에서, 비지도 시계열 이상 감지 모델은 시퀀스의 시간적 동역학을 모델링할 수 있는 아키텍처를 구축
- 주요 카테고리
- 재구성 기반 모델, 클러스터링 기반 모델, 예측 기반 모델
- 재구성 기반 모델: LSTM, MLP, GAN,
- 클러스터링 기반 모델: 일대일 서포트 벡터 머신 접근 방식의 확장, 이상 감지를 위한 텐서 분해 기반 클러스터링 방법, 클러스터링을 위한 잠재 표현의 활용
- 예측 기반 모델(과거 시퀀스와 기준 라벨 사이의 상당한 편차를 식별함으로써 이상을 감지하는 데 의존): ARIMA, LSTM, 트랜스포머
2.2. Distribution shift in time-series data.
- 시계열 예측(Kim et al. 2022b; Liu et al. 2022) 및 이상 감지(Sankararaman et al. 2022; Dragoi et al. 2022)와 같은 작업 내에서 분포 이동을 완화하는 것이 중요한 고려사항으로 부상
- Online RNN-AD는 streaming data를 사용하여 이상 점수의 역전파를 통해 RNN 아키텍처로 모델을 업데이트함으로써 concept drift에 적응합니다.
- 본 연구 제안
- 모델 업데이트를 위한 detrending 모듈을 도입하고, self-attention으로 정상 인스턴스의 선택적 학습을 통해 기존 연구와 차별화
- 과거 시퀀스에 대한 접근 가능성이라는 가정과 다름
- 모델 매개변수를 직접 관리하고, 입력 시퀀스를 즉시 처리한 후 제거
- 최근 다른 연구 해결 방식
- 이상 감지를 위한 적응 가능한 프레임워크를 제안하고 있지만, 이는 과거 데이터 스트림에 적용된 동적 윈도우 메커니즘에 의존
2.3. Test-time adaptation.
- 비지도 도메인 적응(Unsupervised Domain Adaptation) 방법들
- 공변량 이동 문제를 해결하는 관점에서 이 논문의 연구와 일치
- Test-Time Adaptation (UDA)
- 기존 TTA 접근 방식들
- 엔트로피 최소화
- 가짜 레이블(Wang et al. 2022)을 사용하여 레이블이 없는 테스트 샘플을 사용하여 모델 매개변수를 업데이트
- 이 연구 TTA 접근 방식
- 비지도 시계열 이상 감지 작업에 테스트 시간 적응 개념을 성공적으로 적용하고자함
- (뒤에서 설명할듯)
- 기존 TTA 접근 방식들
- → 모든 test sample사용하여 모델 업데이트시, 모델의 취약성 때문(이상 데이터가 모델기능 방해)
- : 훈련 데이터에 접근X, inference 중에 레이블이 없는 테스트 샘플을 사용하여 실시간 적응을 통해 테스트 데이터에서의 모델 성능을 향상
3. Method
3.1. Problem Statement
[1] 새로운 정상문제 정의 (이 논문에서의 정상성 정의)
- 비지도 시계열 이상 감지 목적
- 테스트 시간 동안 이상 탐지하는 것을 목표
- 이는 데이터에서 '정상'의 개념을 학습함으로써 이루어짐
- 정상성 정의
- 정상성은 주어진 작업에서 데이터 D에 대한 확률 분포 P로 정의
- 정상적인 행동의 기본 법칙을 나타냄
- 이상 집합: p(x)<ϵ인 확률이 충분히 작은 데이터로 정의
- 새로운 정상 문제
- 기본 분포P가 고정되지 않고 변한다는 현상
- 즉, 훈련 분포P_train ≠테스트 분포P_test
[2] 시계열 이상 탐지 정의
- 시계열 데이터의 표현
- 이상 감지기의 목표
- 훈련 및 테스트 인스턴스 집합
- 훈련 시간 인스턴스 집합은Dtrain, 테스트 시간 인스턴스 집합은Dtest
- 테스트 시간 정상 및 이상의 정의
- 테스트 시간에서 정상은{X∈Dtest∣y=0}, 이상은{X∈Dtest∣y=1}로 정의
[3] 시계열 데이터 추출(슬라이딩 윈도우)
- 시계열 데이터의 시간적 맥락 반영
- 슬라이딩 윈도우로 데이터 전처리
3.2. Input Normalization Using Trend Estimate
- trend estimation module의 목적
- 시퀀스의 기본 역동성을 유지하면서 기존 trend에서 달라진 새로운 정상상태에 적응
- trend estimation의 중요성
- 이상치가 아닌데, trend 변화 후 적절한 adaptation없이 이상치로 분류될 수 있어서
- trend-outlier 정의
-
- trend estimation 공식
-
- detrending 접근법
- : 위와 같은 Moving-average접근법 사용해서 극단값을 평균으로 맞춰주기때문에 이상값 제거ㄱㄴ
- 비정상 트렌드 구성 요소 제거
- 평균 조정을 통해 비정상적인 트렌드 구성 요소를 제거하는 방법입니다.
- 이 방법은 모델을 수치적 안정성으로 업데이트
- 적용 예시
- 모델은Xw,t 대신 디트렌드된 시퀀스 Xw,t−μt를 재구성하고, 최종 출력을 위해 추정된 트렌드를 추가하여 재구성된 시퀀스를 정규화
3.3. Model Update with New Normals
- 테스트 시간 적응 및 모델 업데이트 목적
- trend 추정만으로 완전히 포착불가능한 시계열 데이터의 역동성 학습
- 논문 제안점
- 테스트 시간 동안 정상 시퀀스만으로 모델 매개변수를 비지도 방식으로 지속 업데이트
- 정상 인스턴스만 모델 업데이트에 통합
- (trend estimate → 전체 시계열 사용)
- 이 전략의 근거는 비지도 이상 감지기가 모델 배포 전에 정상 데이터를 사용하여 훈련된다는 가정에서 비롯됨
- 상당한 변동이 있는 시나리오에서도 트렌드 추정을 가능하게 하기 위해, 이상 감지기에 의해 이상으로 예측될 수 있는 정상 인스턴스를 통합하는 것이 필수적3. Method[1] 새로운 정상문제 정의 (이 논문에서의 정상성 정의)
- 정상 인스턴스만 모델 업데이트에 통합
- 테스트 시간 동안 정상 시퀀스만으로 모델 매개변수를 비지도 방식으로 지속 업데이트
4. Experiments
4.1. Experiment Setups
Datasets.
- 시계열 이상 감지 문헌에서 널리 사용되는 데이터셋
- SWaT: 수처리 시스템 시험대에서 수집된 51개 센서로부터의 11일간 측정치를 포함합니다.
- 일반적으로 사용되는 데이터셋에서 중요한 분포 변화를 보이는 부분 집합
- SMD: 28개의 독립된 서버 기계로부터 5주간의 데이터와 38차원 센서 입력을 포함합니다. 분포 이동 문제가 있는 특정 서버 기계(기계 1-4와 기계 2-1)가 선택되었습니다.
- MSL 및 SMAP: 우주선 모니터링 시스템에서 파생된 데이터셋으로, SMAP은 28개의 고유 기계에서 55개의 텔레메트리 채널 데이터를, MSL은 19개의 고유 기계에서 27개의 텔레메트리 채널 데이터를 포함합니다. 분포 이동이 있는 특정 기계(MSL P-15와 SMAP T-3)가 실험에 사용되었습니다.
- 상당한 분포 변화를 포함하는 데이터셋
- WADI: 123개 센서로부터의 16일간 측정치를 포함하는 수처리 시스템 시험대에서 수집된 데이터셋입니다.
- Yahoo: 실제(A1) 및 합성(A2, A3, A4) 데이터셋의 조합으로 구성되며, 분포 이동 문제를 보이는 특정 데이터셋(A1-R20과 A1-R55)에 초점을 맞추고 있습니다.
- 최소한의 분포 변화를 가진 데이터셋
- CreditCard: 이틀간의 거래 로그를 포함하며, 시간과 거래 금액 정보와 함께 28개의 PCA 익명화된 특징을 포함합니다.
Baselines.
우리의 방법론은 다음 5가지 기준 모델과 비교됩니다:
- MLP 기반 오토인코더(MLP): 다층 퍼셉트론(MLP)을 기반으로 하는 오토인코더입니다.
- LSTMEncDec(LSTM): LSTM을 이용한 인코더-디코더 구조(Malhotra et al. 2016)입니다.
- USAD: 오토인코더를 활용한 이상 감지 방법(Audibert et al. 2020)입니다.
- THOC: 시계열 이상 감지를 위한 하이브리드 접근 방식(Shen, Li, and Kwok 2020)입니다.
- 이상치 변환기(AT): 변환기 아키텍처를 기반으로 하는 이상 감지 방법(Xu et al. 2022)입니다.
구현 및 설정 세부 사항:
- LSTM, USAD, THOC는 각 논문의 설명을 바탕으로 재구현되었습니다.
- 이상치 변환기(AT)의 경우 공식 구현이 실험에 사용되었습니다.
- THOC, USAD, AT의 하이퍼파라미터와 기본 설정은 해당 논문에서 제공된 내용을 따랐습니다.
- MLP와 LSTM은 기본적으로 128의 잠재 차원을 사용합니다.
모델 훈련 및 테스트 세부 사항:
- 모든 접근 방식이 비지도적이므로, 모든 모델은 훈련 데이터셋의 정상 데이터를 기반으로 훈련되었습니다.
- 테스트 시간 동안, 우리의 방법론은 훈련 시간과 동일한 크기의 비중첩 창(w개의 창)을 입력으로 받습니다.
하이퍼파라미터와 기타 세부 사항은 보충 자료에서 확인할 수 있습니다.
Evaluation metrics.
- F1-PA: 연속적인 비정상 구간 전체가 구간 내의 어떤 시점이라도 이상으로 분류되면 올바르게 이상으로 감지된 것으로 간주하는 지표입니다. 이 지표는 분류기의 성능을 과대평가할 수 있지만, 실질적인 정당화가 있습니다.
- 추가 평가 지표:
- F1 점수: 각 개별 시점의 이상 감지 상태를 측정하며, 이상 감지기의 성능을 직접적으로 반영합니다.
- AUROC (수신기 조작 특성 곡선 하의 면적): 모든 가능한 결정 임계값에서의 성능을 고려하여, 특정 임계값의 선택에 덜 민감한 지표입니다.
- AUPRC (정밀도-재현율 곡선 하의 면적): 불균형 분류 시나리오에 적합한 지표로, 전체 성능의 요약을 제공합니다.
- 지표 보고:
- 이 네 가지 주요 지표(F1-PA, F1 점수, AUROC, AUPRC)는 연구의 주요 결과로 보고됩니다.
- 추가적인 지표(정확도, 정밀도, 재현율 등)는 연구의 보충 자료에서 상세히 다룹니다.
4.2. Comparison with Baselines
Main results.
- 성능 향상: 우리의 방법은 다양한 평가 지표를 통해 MLP 모델의 성능을 일관되게 향상시켰습니다.
- WADI 데이터셋의 AUROC에서 최대 13% 개선
- 분포 이동 문제가 있는 MSL(P-15)의 AUPRC에서 51% 개선
- 특정 데이터셋 성능:
- Yahoo A1-R20: F1 점수 측면에서 가장 높은 성능 향상을 보였습니다(Fig. 2-(b) 참조).
- CreditCard: 이 데이터셋은 최소한의 분포 이동 문제를 가지고 있어, 우리 방법으로는 미미한 개선만을 보였습니다.
- 성능 차이:
- WADI 데이터셋: F1 성능이 기존 베이스라인에 비해 낮았으며, 이는 테스트 이상 점수에 대한 임계값 설정과 관련이 있습니다.
- USAD 모델: WADI 훈련 데이터에 대한 최대 이상 점수는 0.225였으나, 보고된 F1 점수를 얻기 위한 임계값은 585.845로 상당히 높았습니다.
- 이상 변환기(AT)와의 비교:
- 우리 방법은 최신 방법인 이상 변환기(AT)와 비교됐습니다.
- AT는 F1-PA 측면에서 비슷한 성능을 보였지만, F1 점수, AUROC, AUPRC에서는 성능이 부족했습니다. 이는 이상 변환기가 특정 간격에서 긍정적인 예측을 생성하기 때문입니다.
- 기타 세부 사항:
- 베이스라인의 테스트 시간 이상 점수에 대한 세부 정보는 연구의 보충 자료에서 제공됩니다.
Analysis on ROC and Precision-Recall curves.
- AUROC 성능: 우리의 방법은 SMD (M-1-4)를 제외한 모든 데이터셋에서 이전 방법들보다 AUROC 측면에서 일관되게 더 우수한 성능을 보였습니다.
- AUPRC 성능: WADI와 CreditCard를 제외한 모든 데이터셋에서 AUPRC 측면에서 이전 접근 방식들을 일관되게 능가했습니다.
- 임계값 설정의 민감성: 이전 기성 베이스라인들은 임계값 설정에 민감한 것으로 나타났습니다. 이는 최적의 임계값을 찾기 어려운 실제 상황에서 강건성을 유지하는 데 도전 과제를 제시합니다.
- 성능 시각화: 그림 5에 우리 접근 방식의 수신기 조작 곡선(ROC 곡선)과 정밀도-재현율 곡선이 기성 분류기 결과와 함께 시각화되어 있습니다. 이 시각화는 우리 접근 방식(빨간색)이 기성 분류기 결과(파란색)에 비해 현저하게 개선됨을 보여줍니다.
이러한 결과들은 우리의 방법이 이전 방법들에 비해 일관되게 더 우수하며, 특히 임계값 설정에 덜 민감하고 강건한 성능을 제공한다는 것을 시사합니다.