0. Abstract
선생님과 학생 사이의 중간 스타일을 전달하여 보조 특징을 생성하고, 그런 다음 학생과 보조 사이의 출력 불일치를 최소화함으로써 모델을 훈련시킵니다. 훈련 중에 보조들은 두 도메인 간의 불일치를 서서히 줄이므로 학생이 선생님으로부터 쉽게 학습할 수 있도록
1. Introduction
- 도메인 적응의 목표는 원래 도메인(소스)에서 사용 가능한 레이블 데이터를 사용하여 학습자를 새로운 도메인(타겟)에 적응시키는 것
- 도메인 내 불일치와 도메인 간 불일치 고려
- AF가 굳이 필요한 이유:
- 혼합 스타일 특징으로 훈련하는 것은 도메인 불일치를 줄이는 데 도움이 됩니다 [12, 45]. 이 사실에서 영감을 받아 보조 특징은 선생님과 학생 사이의 중간 스타일을 전송하여 생성됩니다. 그런 다음 모델은 학생과 보조 사이의 출력 불일치를 최소화하여 훈련됩니다. 보조 특징은 두 도메인 간의 불일치를 원활하게 줄이므로 학생이 선생님으로부터 쉽게 학습할 수 있습니다.
2. Related work
Semi-supervised domain adaptation.
- 우리는 이전 작업과 다른 방식으로 셀프 디스틸레이션을 적용하여 SSDA의 문제를 간단한 쌍 기반 방식으로 다룹니다. 프로토타입 기반 방식과는 달리, 우리의 쌍 기반 방법은 레이블되지 않은 타겟 샘플이 보다 풍부한 감독을 받고 훈련할 수 있게 합니다.
Style Manipulation.
- 레이블 된 샘플(선생님)과 레이블되지 않은 샘플(학생)에서 중간 스타일 특징(보조)을 생성하여 학생을 안내합니다.
- 또한 우리는 보조를 사용하여 그의 부드러운 출력을 학생의 출력과 일치시키도록합니다.
- 따라서 우리의 방법은 서로 다른 스타일로 같은 내용의 두 특징 간에 동일한 결과를 생성하도록 강제됩니다.
→ 내꺼는 서로 다른 스타일이긴한데 SF가 TF의 분포와 그냥 가깝도록 조정하고 (일반화하고) 이상탐지하는건데..
Knowledge distillation.
- 지식 증류(Knowledge Distillation, KD)의 아이디어는 더 강력한 모델(선생님)에서 추출된 지식을 전달하여 모델(학생)을 훈련하는 것입니다
- KD에 대한 다른 흥미로운 연구 분야는 자기 지식 증류(self-knowledge distillation)를 조사하며, 단일 네트워크가 자체로부터 지식을 얻어 훈련되는 방식
- 우리는 중간 스타일 특징과 해당하는 레이블되지 않은 타겟 샘플 간의 두 예측 간의 쿨백-라이블러 발산(Kullback–Leibler divergence)을 최소화하도록 제안합니다. 이러한 학습 목표는 도메인 적응의 목표와 자연스럽게 일치하며, 시맨틱을 공유하지만 시각적으로 다양한 두 샘플을 정렬하여 학습.
3. Method
3.2. Sample-to-sample self-distillation (S3D)
Comments
1. input에 pair쌍이 아닐때도 활용가능한지 생각
2. 이미지가 아닌 time series data에 대해서도 활용가능할지 생각 (다변량일때도?)
3. 아예 unsupervised 방식은 안되는가....?