2024 딥러닝/Deep-Learning 개념

[Deep-Learning 개념] 최대 평균 불일치(MMD)

융딩2 2024. 4. 24. 16:57
  • MMD
    • 정의
      • 확률 분포 간의 차이를 측정하는 효과적 방법 중 하나
    • 역할
      • 데이터셋 간의 차이를 수치화 하기 위한 역할
    • 활용
      • Domain Adaptation, 커널기반 방법, 생성 모델링

 

MMD

  • 정의
    • 두 확률 분포간의 차이점을 평가하기 위해 고안된 측정지표
  • 핵심
    • 커널함수를 선정하는 작업
  • 기본 아이디어
    • 재생 커널 힐베르트 공간(RKHS)에서 분포의 평균 임베딩 차이를 계산하는 것
      • 힐베이트: 무한차원의 공간
      • 임베딩: 각 데이터에 일대일대응하는 벡터뭉치
    ⇒ 고차원 공간에서 함수의 기댓값(평균)간의 불일치 평가하여 차이점을 정량화

MMD 구성요소

  • 커널 함수
    • 입력 공간의 데이터포인트를 고차원공간에 변환하는 역할
    • 결정경계가 단순한 초평면이 아닌 복잡한 문제를 해결하는데에 유용
    • 커널함수 선택 방법: 가우스(RBF)커널, 다항식 커널
    • 각 분포간 다양한 유형에 따라 MMD의 민감도에 영향 미침
  • 평균 임베딩
    • MMD가 선택한 커널함수 기반으로 data point를 고차원 공간으로 변환할때 사용
    • 변환된 공간에서 함수의 예상값(평균?)을 나타내며, 분포 특성에 대한 미묘한 차이 보여줌

MMD의 활용

  • Domain Adaptation
    • 소스 도메인과 타겟 도메인의 분포간 차이 정량화
    • feature space의 정렬을 용이하게 하여, 도메인 전체에 걸쳐 모델 일반화 향상시킴
  • 커널 기반 방법
    • SVM, 커널화 회귀 같은 작업에서 성능 향상에 기여
    • 모델 정확도 높이는 역할
  • 생성 모델링
    • GAN모델의 평가에 통합
    • 생성된 데이터와 실제 데이터의 분포 비교

MMD 장점

  • 분포 정렬
    • DA 또는 전이학습이 필요한 경우 특히 유용함
    • 데이터셋 간의 분포 차이 최소화
  • 비모수적 접근방식
    • 모수적 형태를 가정하지 않고도, 분포 간 복잡한 관계 포착가능

MMD 고려사항

  • 커널 선택에 대한 민감도
    • MMD성능은 커널함수 선택에 영향O
  • 계산 복잡성
    • 대규모 데이터셋의 경우 계산량 많음

MMD 예시