2024 딥러닝/Time-series 논문 리뷰

[서베이 정리] A review on outlier/anomaly detection in time series data

융딩2 2024. 7. 2. 11:35

1. INTRODUCTION

  • 이상치란 ?
    • 단변량 시계열
      • 1형 이상치: 단일 관측치에 영향
      • 2형 이상치: 특정 관측치와 그 이후 관측치에 영향
    • ↓ 4종류 이상치로 확장 ↓
    • 다변량 시계열
  • 이상치의 관점 변화
    • 고전적 관점의 이상치
      • 다른 관측값과 너무 다르게 벗어나 의심을 불러일으키는 관측값
  • 시계열에서 이상치의 2가지 의미
    • Unwanted data → Data cleaning
      • 잡음, 오류, 원하지 않는 데이터
      • 삭제, 수정
      • ex. 센서 전송 오류; 정확한 예측 얻기 위해 제거
    • Event of interest → outlier자체 분석
      • 이상하지만 흥미로운 현상 탐지 위함
      • ex. 사기 탐지

 


2. A TAXONOMY OF OUTLIER DETECTION TECHNIQUES IN THE TIME SERIES CONTEXT

2.1 Input data

  • 단변량
  • 다변량

 

2.2 Outlier type

  • point anomaly
    • 특정 시간 순간에 시계열의 다른 값들(global anomaly) or 인접한 점들(local anomaly)과 비교하여 비정상적으로 행동하는 데이터
    • 영향을 받는 시간 종속 변수의 수에 따라 단변량 또는 다변량이 될 수 있음
      • a: O1 O2; 2개의 단변량 점 이상치
      • b: O3; 단변량 점 이상치, O1 O2; 다변량 점 이상치
  • subsequence anomaly
    • 비정상적인 행동을 보이는 연속적인 시간 포인트
    • global or local 이상치
    • 하나의 시간 종속 변수(단변량 부분 수열 이상치) 또는 여러 개(다변량 부분 수열 이상치)에 영향
      그림 4는 단변량(그림 4a의 O1과 O2, 그림 4b의 O3)과 다변량(그림 4b의 O1과 O2) 부분 수열 이상치의 예를 제공
  • outlier time series
    • 입력 데이터가 다변량 시계열인 경우에만 탐지
      그림 5는 네 변수로 구성된 다변량 시계열에서 변수 4에 해당하는 이상 시계열의 예를 보여줍니다. 변수 4의 행동은 나머지와 크게 다릅니다.
  • 이상치 특징
    • 단변량; 다변량 점 or subsequence anomaly 식별X
    • 이상치는 맥락에 따라 달라짐
      • ex. 탐지 방법이 전체 시계열을 맥락 정보로 사용하는 경우, 탐지된 이상치는 전역입니다. 그렇지 않고 방법이 **시리즈의 일부분(시간 창)**만을 사용하는 경우, 탐지된 이상치는 그들의 이웃 내에서 이상치이므로 지역적
    • 전역 이상치는 지역적이기도 하지만 모든 지역 이상치가 전역적인 것은 아님
      • ex. 일부 지역 이상치는 전체 시계열을 관찰할 때는 정상으로 보일 수 있지만 그들의 이웃에만 초점을 맞추면 이상하게 보일 수 있습니다(예: 그림 3a의 O1).

 

2.3 Nature of the method

  • 사용된 탐지 방법의 성격(단변량 or 다변량)
    • 단변량 탐지 방법
      • 단일 시간 종속 변수만을 고려
    • 다변량 탐지 방법
      • 동시에 둘 이상의 시간 종속 변수
      • 탐지 방법이 다변량 시계열이라도 단변량일 수 있음
        • 변수 간에 존재할 수 있는 의존성을 고려하지 않고 각 시간 종속 변수에 대해 개별 분석을 수행할 수 있기 때문
      • 입력 데이터가 단변량 시계열인 경우 다변량 기술은 사용할 수 없음

 


3. POINT OUTLIERS

point outlier 감지하는데에 사용되는 기술 2가지

  • 1) Temporality(시간성 처리)
    • Temporality: 관측치의 고유한 시간순서 고려 O;
      • time window 사용
        • window 내의 관측치 섞을때는 동일 결과, but 전체 시계열 섞을때는 동일결과X
    • Non-Temporality: 고려 X
      • series의 버전을 섞어도 동일 결과 생성
  • 2) Streaming/Non-streaming
    • Streaming: 새로 들어오는 데이터가 이상치인지 아닌지를 도착하자마자 결정함으로써 스트리밍 시계열에서 이상치를 감지
      • 고정된 모델O
      • 고정된 모델X; 새로운 정보를 받아들여 모델을 업데이트(전체 모델을 재훈련하거나 점진적으로 학습)
    • Non-streaming: 새로운 데이터의 도착 시 결정을 내릴 수 없는 경우(스트리밍 시계열에 적용X)

⇒ 대부분의 point anomaly detection기술은 streaming에 적용O

⇒ 전체 시계열을 순서 있는 시퀀스로 고려O, time window 통해 데이터의 시간성 고려O

 

 

3.1 Univariate time series