2024 딥러닝/Time-series 논문 리뷰

[Time-series 논문 리뷰]TranAD: Deep Transformer Networks for Anomaly Detection in Multivariate Time Series Data(VLDB, 2022)

융딩2 2024. 7. 2. 11:44

- 2024.05.20 기준 311회 인용

- Transformer구조와 Adversarial training을 다변량 시계열 데이터에 접목시킨 연구

 

Contribution

- Transformer 구조를 통해 기존 다변량 시계열 데이터에서의 anomaly detection 개선

- 전체적인 시점정보와 지역적 시점정보 모두 반영하여 시계열 데이터가 지닌 장단기 특징을 반영

- 두 개의 decoder를 지닌 구조로 Adversarial training을 통해 안정적인 학습 및 불량 탐지 효과 개선하여, 정상에 대해 좀 더 강건하고 일반화된 특징을 적절히 학습

 


 

1) Architecture

- 1개의 Encoder와 2개의 Decoder로 구성

: Encoder는 기존의 Transformer구조와 동일하며, Transformer에서의 encoder, decoder를 모두 포함한 형태

: Decoder는 2개로 구성되어 각각에 대한 reconstruction loss와 adversarial training을 적용

 

2) Encoder

✓ Encoder는 장단기 특징을 모두 반영하여 해당 window에 대한 특징 추출

: 배포 코드상 일반적인 windowing이 적용된 데이터를 complete sequence로 현 시점을 input window로 정의

: 초기에는 window input과 같은 차원의 0으로 구성된 focus score를 활용, 차원을 증폭시킴

: 결과적으로 encoder를 통해 과거시점을 반영하여 현 window에 대해 적절히 특징 추출

 

3) Decoder

✓ Decoder는 2가지로 구성되며 모두 reconstruction loss를 연산하지만 궁극적으로 각각의 역할이 다름

: Decoder 1 (reconstruction decoder): 진짜 데이터는 적절하게 재구축(진짜 같은 가짜 데 이터 생성)

: Decoder 2 (prediction decoder): 진짜 데이터는 적절하게 재구축하고, 가짜 데이터는 재 구축하지 못함

 

4) Loss function

✓ Reconstruction loss와 Adversarial loss가 병합된 형태로 최종 손실함수 정의

: Reconstruction loss: 입력 데이터와 재구축 데이터가 ‘각각‘ 유사해지도록 학습

 

5) Anomaly score

✓ 정상이라면 복원(𝑶𝟏)이 잘 되며, 불량이라면 복원(𝑶𝟏)이 잘 안됨

 


∎ Experiments

1) 실험 세팅

✓ 입력: windowing process를 수행하여 sub-series 형태로 입력 [𝐵𝑎𝑡𝑐ℎ, 𝑆𝑒𝑞_𝑙𝑒𝑛, 𝑉𝑎𝑟]

✓ 출력: 각 시점별로 anomaly score / 상태여부 출력 [𝐵𝑎𝑡𝑐ℎ, 𝑆𝑒𝑞_𝑙𝑒𝑛, 1]

2) 실험 결과

- 9개의 공용 데이터에 적용하여 우수성 입증

- 다양한 비교실험 수행결과 우수한 성능 도출

- 특징적으로 SMAP, SMD의 F1 score에서 상대적으로 낮은 결과를 보임. 뒷부분에서 이 두 가지 데이터셋을 토대로 Proposed Method의 일부에 적용하여 성능 비교를 할 예정임.

 

 


∎ TranAD의 한계점

1) 한계 ①: 계산비용 및 복잡성

- TranAD 모델은 Encoder에서 Multi-Head Self Attention을 사용하여 다양한 시점의 데이터 를 모두 집중하여 분석함. 하지만 이는 계산 비용이 높아 대규모 데이터셋을 처리할 때 효 율성이 떨어질 수 있음. Attention 메커니즘의 복잡성으로 인해 모델의 훈련 및 추론 시간 이 길어지며, 이는 실시간 이상 탐지에 적합하지 않을 수 있기 때문임.

- TranAD 모델은 Window-Encoder에서 Masked Multi-Head Attention을 사용하여 미래 정 보를 마스킹하여 학습함. Masking 과정의 복잡성으로 인해 모델의 구조가 복잡해지고, 이 는 구현 및 유지 보수 비용을 증가될 뿐만 아니라 복잡한 두 단계의 Attention 메커니즘을 사용하여 최적화가 어려워 수렴 문제가 발생할 수 있음.

 

2) 한계 ②: 정밀도

- 현재 TranAD는 Focus Score를 기반으로 Self-Conditioning을 사용하여 모델이 이상 탐지를 수행함. 하지만 Focus Score 계산 방법은 단순한 재구성 오차에 기반하고 있어 세밀한 이 상 탐지에는 한계가 있음. 단순한 재구성 오차 기반의 Focus Score는 데이터의 세밀한 이 상을 놓칠 수 있으며, 특히 경미한 이상에 대해 민감도가 떨어질 수 있기 때문임. 본 논문에 서 역시 이러한 문제점에 대해 지적한 바가 있음.

 

3) 한계 ③: 일반화

- TranAD는 데이터의 분포 변화를 충분히 반영하지 못할 수 있으며, 이는 다양한 환경에서의 일반화 성능을 저하시킬 수 있음. 실제로 논문에서도 데이터 변동성과 레이블 부족은 모델 학습을 어렵게 하며, 이러한 문제는 정규화 기법의 부재로 인해 더욱 심화될 수 있음을 언 급함