- MMD
- 정의
- 확률 분포 간의 차이를 측정하는 효과적 방법 중 하나
- 역할
- 데이터셋 간의 차이를 수치화 하기 위한 역할
- 활용
- Domain Adaptation, 커널기반 방법, 생성 모델링
- 정의
MMD
- 정의
- 두 확률 분포간의 차이점을 평가하기 위해 고안된 측정지표
- 핵심
- 커널함수를 선정하는 작업
- 기본 아이디어
- 재생 커널 힐베르트 공간(RKHS)에서 분포의 평균 임베딩 차이를 계산하는 것
- 힐베이트: 무한차원의 공간
- 임베딩: 각 데이터에 일대일대응하는 벡터뭉치
- 재생 커널 힐베르트 공간(RKHS)에서 분포의 평균 임베딩 차이를 계산하는 것
MMD 구성요소
- 커널 함수
- 입력 공간의 데이터포인트를 고차원공간에 변환하는 역할
- 결정경계가 단순한 초평면이 아닌 복잡한 문제를 해결하는데에 유용
- 커널함수 선택 방법: 가우스(RBF)커널, 다항식 커널
- 각 분포간 다양한 유형에 따라 MMD의 민감도에 영향 미침
- 평균 임베딩
- MMD가 선택한 커널함수 기반으로 data point를 고차원 공간으로 변환할때 사용
- 변환된 공간에서 함수의 예상값(평균?)을 나타내며, 분포 특성에 대한 미묘한 차이 보여줌
MMD의 활용
- Domain Adaptation
- 소스 도메인과 타겟 도메인의 분포간 차이 정량화
- feature space의 정렬을 용이하게 하여, 도메인 전체에 걸쳐 모델 일반화 향상시킴
- 커널 기반 방법
- SVM, 커널화 회귀 같은 작업에서 성능 향상에 기여
- 모델 정확도 높이는 역할
- 생성 모델링
- GAN모델의 평가에 통합
- 생성된 데이터와 실제 데이터의 분포 비교
MMD 장점
- 분포 정렬
- DA 또는 전이학습이 필요한 경우 특히 유용함
- 데이터셋 간의 분포 차이 최소화
- 비모수적 접근방식
- 모수적 형태를 가정하지 않고도, 분포 간 복잡한 관계 포착가능
MMD 고려사항
- 커널 선택에 대한 민감도
- MMD성능은 커널함수 선택에 영향O
- 계산 복잡성
- 대규모 데이터셋의 경우 계산량 많음
MMD 예시