- 2024.05.20 기준 311회 인용
- Transformer구조와 Adversarial training을 다변량 시계열 데이터에 접목시킨 연구
∎ Contribution
- Transformer 구조를 통해 기존 다변량 시계열 데이터에서의 anomaly detection 개선
- 전체적인 시점정보와 지역적 시점정보 모두 반영하여 시계열 데이터가 지닌 장단기 특징을 반영
- 두 개의 decoder를 지닌 구조로 Adversarial training을 통해 안정적인 학습 및 불량 탐지 효과 개선하여, 정상에 대해 좀 더 강건하고 일반화된 특징을 적절히 학습
1) Architecture
- 1개의 Encoder와 2개의 Decoder로 구성
: Encoder는 기존의 Transformer구조와 동일하며, Transformer에서의 encoder, decoder를 모두 포함한 형태
: Decoder는 2개로 구성되어 각각에 대한 reconstruction loss와 adversarial training을 적용
2) Encoder
✓ Encoder는 장단기 특징을 모두 반영하여 해당 window에 대한 특징 추출
: 배포 코드상 일반적인 windowing이 적용된 데이터를 complete sequence로 현 시점을 input window로 정의
: 초기에는 window input과 같은 차원의 0으로 구성된 focus score를 활용, 차원을 증폭시킴
: 결과적으로 encoder를 통해 과거시점을 반영하여 현 window에 대해 적절히 특징 추출
3) Decoder
✓ Decoder는 2가지로 구성되며 모두 reconstruction loss를 연산하지만 궁극적으로 각각의 역할이 다름
: Decoder 1 (reconstruction decoder): 진짜 데이터는 적절하게 재구축(진짜 같은 가짜 데 이터 생성)
: Decoder 2 (prediction decoder): 진짜 데이터는 적절하게 재구축하고, 가짜 데이터는 재 구축하지 못함
4) Loss function
✓ Reconstruction loss와 Adversarial loss가 병합된 형태로 최종 손실함수 정의
: Reconstruction loss: 입력 데이터와 재구축 데이터가 ‘각각‘ 유사해지도록 학습
5) Anomaly score
✓ 정상이라면 복원(𝑶𝟏)이 잘 되며, 불량이라면 복원(𝑶𝟏)이 잘 안됨
∎ Experiments
1) 실험 세팅
✓ 입력: windowing process를 수행하여 sub-series 형태로 입력 [𝐵𝑎𝑡𝑐ℎ, 𝑆𝑒𝑞_𝑙𝑒𝑛, 𝑉𝑎𝑟]
✓ 출력: 각 시점별로 anomaly score / 상태여부 출력 [𝐵𝑎𝑡𝑐ℎ, 𝑆𝑒𝑞_𝑙𝑒𝑛, 1]
2) 실험 결과
- 9개의 공용 데이터에 적용하여 우수성 입증
- 다양한 비교실험 수행결과 우수한 성능 도출
- 특징적으로 SMAP, SMD의 F1 score에서 상대적으로 낮은 결과를 보임. 뒷부분에서 이 두 가지 데이터셋을 토대로 Proposed Method의 일부에 적용하여 성능 비교를 할 예정임.
∎ TranAD의 한계점
1) 한계 ①: 계산비용 및 복잡성
- TranAD 모델은 Encoder에서 Multi-Head Self Attention을 사용하여 다양한 시점의 데이터 를 모두 집중하여 분석함. 하지만 이는 계산 비용이 높아 대규모 데이터셋을 처리할 때 효 율성이 떨어질 수 있음. Attention 메커니즘의 복잡성으로 인해 모델의 훈련 및 추론 시간 이 길어지며, 이는 실시간 이상 탐지에 적합하지 않을 수 있기 때문임.
- TranAD 모델은 Window-Encoder에서 Masked Multi-Head Attention을 사용하여 미래 정 보를 마스킹하여 학습함. Masking 과정의 복잡성으로 인해 모델의 구조가 복잡해지고, 이 는 구현 및 유지 보수 비용을 증가될 뿐만 아니라 복잡한 두 단계의 Attention 메커니즘을 사용하여 최적화가 어려워 수렴 문제가 발생할 수 있음.
2) 한계 ②: 정밀도
- 현재 TranAD는 Focus Score를 기반으로 Self-Conditioning을 사용하여 모델이 이상 탐지를 수행함. 하지만 Focus Score 계산 방법은 단순한 재구성 오차에 기반하고 있어 세밀한 이 상 탐지에는 한계가 있음. 단순한 재구성 오차 기반의 Focus Score는 데이터의 세밀한 이 상을 놓칠 수 있으며, 특히 경미한 이상에 대해 민감도가 떨어질 수 있기 때문임. 본 논문에 서 역시 이러한 문제점에 대해 지적한 바가 있음.
3) 한계 ③: 일반화
- TranAD는 데이터의 분포 변화를 충분히 반영하지 못할 수 있으며, 이는 다양한 환경에서의 일반화 성능을 저하시킬 수 있음. 실제로 논문에서도 데이터 변동성과 레이블 부족은 모델 학습을 어렵게 하며, 이러한 문제는 정규화 기법의 부재로 인해 더욱 심화될 수 있음을 언 급함