방법론의 목적
- 1) 시계열 데이터의 복잡성과 해석의 어려움
- 시계열 데이터의 특성:
- 다차원(multivariate) 데이터: 여러 센서 또는 관찰 데이터가 시간에 따라 변동.
- 시간 패턴: 데이터가 시간적으로 연속적이면서 특정 구간에서 중요한 정보가 나타남.
- 기존 설명 기법:
- 이미지나 텍스트 데이터에 잘 작동하는 설명 기법을 시계열 데이터에 바로 적용하기 어려움.
- 시계열 데이터의 복잡한 시간적 패턴과 연관성을 충분히 반영하지 못함.
- 전역적 접근: 샘플 간 이질성을 반영하지 못함
- ContraLSP의 필요성:
- 복잡한 시간적 특징을 설명할 수 있는 전용 모델 필요.
- 중요한 시간 구간과 관찰 값을 효과적으로 식별하는 능력 요구.
- 시계열 데이터의 특성:
- 2) 기존 XAI 기법의 한계
- 기존 기법(대표: Saliency Map, Shapley Value, LIME 등):
- 데이터의 중요한 부분을 시각적으로 표시(saliency map)하지만, 다음과 같은 문제점 존재:
- 분포 이탈 문제:
- 중요하지 않은 데이터를 무작위로 변경하면 원래 데이터 분포를 벗어나 모델 신뢰도가 떨어짐.
- 레이블 누출(label leakage):
- 중요하지 않은 데이터를 변경한 후에도 모델이 해당 정보를 예측에 활용할 수 있음.
- 일관성 부족:
- 시계열의 연속적인 시간적 특성을 반영하지 못해 중요 영역이 끊기거나 부정확하게 해석.
- 분포 이탈 문제:
- 데이터의 중요한 부분을 시각적으로 표시(saliency map)하지만, 다음과 같은 문제점 존재:
- ContraLSP의 필요성:
- 모델의 설명 신뢰성을 높이기 위해, "데이터 분포를 유지하면서도 중요하지 않은 정보를 제거"하는 방법 필요.
- 기존 기법(대표: Saliency Map, Shapley Value, LIME 등):
- 3) 반사실(counterfactual) 설명의 필요성
- 반사실 설명이란?:
- "어떤 데이터가 없었거나 달랐으면 모델의 예측이 어떻게 변했을까?"를 탐구하는 설명 방법.
- 예: "심박수 데이터에서 특정 시점의 이상치가 없었다면 심장 이상을 예측하지 않았을까?"
- 기존 기법의 반사실 설명 문제:
- 기존 반사실 생성 방법은 레이블 기반으로 작동하거나, 데이터 분포를 유지하지 못함.
- 레이블에 의존하지 않는 효과적인 반사실 데이터 생성 방법 부재.
- ContraLSP의 필요성:
- 레이블 없이도 데이터의 중요하지 않은 영역을 제거하며, 반사실 데이터를 통해 모델의 동작을 설명할 수 있는 새로운 기법 필요.
- 반사실 설명이란?:
주목해야할 점
방법론
방법론
1. 시작: 데이터 입력 (Original Features)
- 입력 데이터 $x_i$ : 시간에 따라 변하는 데이터를 생각하면 됩니다. 예를 들어, 심박수, 온도, 주식 가격 같은 시계열 데이터를 입력으로 받습니다.
- 이 데이터를 두 가지 역할로 나눠 처리합니다:
- 중요한 정보를 골라내는 마스크(mask)를 만들기.
- 원래 데이터와 비슷하지만 "다른 결과"를 낼 수 있는 가짜 데이터(반사실 데이터)를 만들기.
2. 마스크 만들기 (Mask+Inverted Mask)
- 마스크는 데이터에서 중요한 부분만 남기고 나머지는 숨기는 역할을 합니다.
- 예: 심박수 데이터에서 "심장 이상이 의심되는 부분"만 남기고 다른 부분은 숨기는 식입니다.
- 마스크를 만드는 방법:
- 데이터를 분석해서 시간 패턴(트렌드)을 찾음 (τ(x)).
- 여기에 랜덤한 변화를 추가해서, 어느 부분이 중요한지 계산.
- 이렇게 만들어진 마스크 ($m_i$)는 "중요한 부분: 1, 중요하지 않은 부분: 0"으로 표시.
3. 가짜 데이터 만들기 (Counter factuals)
- 원래 데이터와 비슷하지만 모델이 "다른 결과"를 내도록 만드는 데이터(반사실 데이터)를 생성.
- 예: "이런 데이터가 있었으면 심장 이상이 없다고 판단했을까?" 같은 질문을 던지는 데이터.
- 이 가짜 데이터는 대조 학습(contrastive learning)을 통해 만들어집니다:
- 데이터끼리 비교하면서, 중요하지 않은 부분을 가짜 데이터로 바꾸고, 모델이 예측에 영향을 받지 않도록 학습.
4. 데이터 변형 (Perturbation, Perturbated Features)
- 마스크와 가짜 데이터를 합쳐 새로운 데이터를 만듭니다:
- 중요한 부분은 원래 데이터 그대로 유지.
- 중요하지 않은 부분은 가짜 데이터로 바꿔서 "모델이 이 부분은 신경 쓰지 않도록" 만듭니다.
- 변형데이터=(중요한부분)+(중요하지않은부분을가짜데이터로대체)
5. 결과 확인
- 변형된 데이터를 모델에 넣고, 원래 데이터와 비교합니다.
- 이렇게 하면, 모델이 "왜 이런 예측을 했는지" 설명할 수 있는 중요한 부분을 정확히 찾을 수 있습니다.
- 차이 분석
- 모델의 예측 결과가 크게 달라지면, 변형된 데이터에서 제거된 부분이 중요한 특징임을 의미.
- 모델의 예측 결과가 거의 변하지 않으면, 변형된 데이터에서 제거된 부분은 중요하지 않은 특징임을 의미.
⇒ 쉽게 말해, ContraLSP는 "데이터 중에서 어떤 부분이 모델의 예측에 중요한지" 알려주는 기술
효과
- FO, AFO, IG, GradShap, DeepLift, LIME, FIT, RETAIN:
- 기존 XAI 방법론으로, 특정 시간대와 특징의 중요도를 연속적인 수준으로 나타냄.
- 하지만, 중요한 영역(즉, Saliency가 높은 부분)이 전역적(global)으로 퍼져 있어서, 특정 특징을 명확히 강조하지 못함.
- 이는 희소성(sparsity)이 부족하다는 것을 의미하며, 모델이 많은 특징을 동시에 중요하다고 간주하는 경향을 보여줌.
- Dynamask, Extremask:
- 희소성(sparsity)을 강화한 방법론.
- 상대적으로 중요한 특징을 명확히 분리하려 했지만, 여전히 중요한 영역이 명확히 구분되지 않거나, 일부 불필요한 영역이 강조됨.
- ContraLSP:
- 그림에서 보이듯이, ContraLSP는 중요한 특징만을 명확히 강조하고 나머지 부분은 거의 완전히 제거.
- 다른 방법론과 달리, 국소적(local)으로 샘플별로 중요한 영역을 식별하며, "어떤 시간 구간 또는 특징이 예측에 영향을 미쳤는지"를 더욱 직관적으로 보여줌.
- Label:
- 라벨은 실제로 중요한 구간을 표시한 결과(ground truth)로, ContraLSP의 Saliency Map이 라벨과 가장 유사한 형태를 보임.