Abstract
- 퓨샷 학습 과제를 위한 심층 신경망의 표현 능력을 개선하는 간단한 접근 방법을 제안
- 첫 번째로, self-supervised auxiliary loss을 사용하여 특징 임베딩의 엔트로피를 최대화함으로써 최적의 출력 매니폴드를 생성하는 신경망을 훈련합니다.
- 두 번째 단계에서는 self-supervised 쌍을 함께 묶어 특징 임베딩의 엔트로피를 최소화하고, 학생-교사 간의 교류(KD)를 통해 매니폴드를 제한
Introduction
- 정리
- 기존 FSL 연구들
- 주로 메타 학습을 사용하여 새로운 과제에 대한 기본 학습자를 적응시키거나, 메트릭 학습을 통해 마진을 최대화하는 제약을 적용함으로써 FSL을 접근합
- 한계
- 클래스 내 다양성의 중요성을 무시
- 본 논문의 연구 관점
- 클래스 내 변화에 불변하는 표현을 학습하는 대신, equivariant representation을 주장
- 이러한 변화들을 등변적 방식으로 충실히 반영함으로써, 우리는 객체 클래스의 진정한 자연 매니폴드를 학습
- 제안하는 것
- FSL을 위한 두 단계 자기 감독 지식 전달(SKD) 접근 방식을 제안
- Generation one (Gen-0) 모델
- 목적: 모델의 일반화 능력을 향상시키기 위함.
- 방법: 입력 변환에 등변인 출력을 예측하는 모델을 학습합니다.
- 특징:
- 입력 변화에 따라 출력도 변합니다 (예: 회전된 이미지는 회전에 대한 정보를 출력).
- 과적합을 방지하고 예측 공간에서의 다양성을 보장합니다.
- 예를 들어, 객체 분류시 입력 이미지의 회전을 인코딩할 수 있는 출력을 생성합니다..
- Generation zero (Gen-1) 모델
- 방법: Gen-0 모델을 사용하여 교사 네트워크를 생성하고, 이를 통해 학생 모델을 훈련합니다.
- 목적: 클래스 간 차별성을 향상시키기 위함.
- 특징:
- 증강된 샘플과 원본 입력이 유사한 예측을 내도록 합니다.
- 출력 클래스 매니폴드는 입력의 주요 변환을 반영해야 하며, 이를 통해 과적합을 방지하고 일반화를 개선합니다.
- 출력 공간에서 학습된 관계는 클래스 간의 자연스러운 연결을 인코딩합니다.
- 예를 들어, 유사한 클래스는 관련된 예측을 가져야 하며, 이를 통해 클래스 간 관계를 인코딩하고 클래스 내 다양성을 보존합니다.
- 결론
- 이 연구 방법론은 입력 데이터의 변화를 출력에 반영하는 동시에, 클래스 간 차별성과 일반화 능력을 개선하는 데 중점을 두고 있습니다. 첫 번째 단계에서는 입력의 변화를 반영하는 출력을 생성하고, 두 번째 단계에서는 이러한 출력을 바탕으로 더 정교한 학습을 진행하여 클래스 간 관계를 더 잘 이해하고 표현합니다. 이 접근 방식은 특히 클래스 간 차이가 미묘한 학습 환경에서 유용할 수 있습니다.
- Generation one (Gen-0) 모델
- FSL을 위한 두 단계 자기 감독 지식 전달(SKD) 접근 방식을 제안
- 기존 FSL 연구들
- Contribution
- 기존 작업들이 SSL을 보조 작업으로 사용하는 것과 달리, 간단한 구조적 수정을 통해 예측 공간에서 다양성 제약을 적용하는 SSL의 이점을 보여줍니다.
- 최적의 출력 매니폴드를 먼저 추정한 다음, 원본-증강 쌍 거리를 최소화하고 지식 전달 손실을 사용하여 원본 샘플을 학습된 매니폴드에 고정시키는 이중 단계 훈련 체제.
- FSL 작업에서 상당한 개선을 보여주는 네 가지 인기 있는 벤치마크 데이터셋에 대한 광범위한 평가.
Related work
- Self supervised learning
- 이 논문의 SSL 접근 방식
- 분류 공간에서 추가적인 제약을 적용하기 위해 self supervised
- (= 우리는 등변성 표현(equivariant representation)을 학습하고자 하며, 이를 통해 객체 클래스의 진정한 자연 매니폴드를 소수의 예시만으로 학습)
- 이 논문의 SSL 접근 방식
- Few-shot learning
- metric learning
- 이 논문의 접근 방식
- 차별점: 이 논문은 이미지의 증강된 쌍(예: 동일한 이미지의 두 가지 다른 변형)만을 사용하여 메트릭 학습을 수행합니다.
- 작동 방식: 이미지 쌍의 임베딩(데이터를 저차원 공간에 표현하는 것)을 가깝게 이동시키면서, 출력 공간에서는 각 이미지 간의 거리를 유지합니다.
- 이 논문의 접근 방식
- meta learning
- 과거 task에서 획득한 지식을 활용하여 새로운 task를 학습
- 이 논문에서 진행한 연구
- FSL을 위한 효과적인 특징 표현을 학습할 수 있는 새로운 자기 감독 지식 전달 접근 방식을 제안
- 기존
- 우리의 작업과 가장 가까운 것은 Gidaris 등[13]으로, 그들은 SSL을 사용하여 퓨샷 분류를 향상시킵니다.
- 그러나 [13]은 단일 훈련을 위한 보조 손실로 자기 감독을 단순히 사용하는 반면, 우리는 학습 매니폴드를 형성하고 제한하는 데 사용합니다.
- 구조적으로, 우리는 순차적인 자기 감독 레이어를 사용하는 반면, [13]은 병렬 디자인을 가지고 있습니다.
- [13]은 multiple generations가 없는 반면, 우리는 두 번째 generation에서 지식 전달과 회전된 쌍의 임베딩을 원래의 임베딩에 더 가깝게 가져오는 것을 사용하여 표현을 더 개선합니다.
- metric learning
3. Our Approach
제안된 SKD는 두 단계 훈련 파이프라인을 사용합니다; Generation zero (Gen-0)와 Generation one (Gen-1).
- Gen-0
- self supervised learning을 사용하여 더 넓은 분류 매니폴드를 학습하는데, 여기서 학습된 임베딩은 회전(또는 다른 데이터 변환)에 대해 등변적
- Gen-1
- Gen-0 모델을 teacher로 사용하고 원본(비회전) 이미지를 앵커로 사용하여 학습된 매니폴드를 보존하는 동시에, 회전된 이미지 버전은 임베딩 공간에서 클래스 내 거리를 줄이고 강인하고 차별적인 특징 표현을 학습
3.1 Setting
- 신경망 구조와 함수
- 정리
- 신경망 F: 특징 임베딩 파라미터(Φ)와 분류 가중치(Θ)를 포함하는 신경망입니다.
- 함수 fΦ: 입력 이미지 x를 특징 벡터 v로 매핑합니다. 이 벡터 v는 R^d 공간(다차원 벡터 공간)에 속합니다.
- 함수 fΘ: 특징 벡터 v를 로짓 p로 매핑합니다. 로짓 p는 R^c 공간에 속하며, 여기서 c는 출력 클래스의 수입니다.
- 신경망의 전체 작동: F = fΦ ◦ fΘ. 여기서 ◦는 함수의 구성을 나타냅니다. 즉, 하나의 함수의 출력이 다른 함수의 입력으로 사용됩니다.
- 새로운 함수 fΨ: 이 함수는 로짓 p를 SSL task(예: 회전 분류)을 위한 새로운 로짓 q로 매핑합니다. 이 로짓 q는 R^s 공간에 속합니다.
- 완전한 네트워크: FΦ,Θ,Ψ = fΨ ◦ fΘ ◦ fΦ. 이는 세 함수의 조합으로 이루어진 네트워크입니다.
- 정리
- 퓨샷 학습 설정
- 정리
- 데이터셋 D: n개의 이미지-레이블 쌍 {xi, yi}n이 포함된 데이터셋입니다. 여기서 yi는 출력 클래스 중 하나를 나타냅니다.
- 에피소드 샘플링: 평가 과정에서, 특정 에피소드(데이터의 하위 집합)를 샘플링합니다.
- 에피소드 Deval: 이 에피소드는 지원 세트(Dsupp)와 쿼리 세트(Dquery)를 포함합니다.
- n-way k-shot 설정: 지원 세트 Dsupp는 n개의 클래스 각각에 대해 k개의 샘플을 가집니다. 이는 퓨샷 학습에서 주어진 클래스를 몇 개의 예시(샘플)만으로 학습하는 설정을 나타냅니다.
- 정리
3.2 Generation Zero
- self supervised learning(few shot learning위해서)을 사용하여 더 넓은 분류 매니폴드를 학습하는데, 여기서 학습된 임베딩은 회전(또는 다른 데이터 변환)에 대해 등변적
- loss function
- (a) categorical cross entropy loss Lce
- predicted logits $\hat{p}$ and the true labels $\hat{y}$
- (b) self-supervision loss Lss (binary cross entropy)
- rotation logits $\hat{q}$ and rotation labels $\hat{r}$
- (a) categorical cross entropy loss Lce
3.3 Generation One
- Gen-0 모델을 teacher로 사용하고 원본(비회전) 이미지를 앵커로 사용하여 학습된 매니폴드를 보존하는 동시에, 회전된 이미지 버전은 임베딩 공간에서 클래스 내 거리를 줄이고 강인하고 차별적인 특징 표현을 학습
- x : anchor point (분류 학습된 매니폴드 보존위해)
- KD loss (L_{KD}) 계산 위해
- teacher model $F^t$ and a student model $F^s$
- $F^t$ : inference때만 사용, 평소에 계속 고정
- 중요한 점
- 특징 임베딩 레이어 바로 뒤에 rotation classification head를 직접 연결하는 것과 달리, 분류 레이어에 rotation classification head를 순차적으로 추가하는 것이 필요합니다.
- 이는 Gen-0 동안에는 최종 레이어가 이미지 클래스와 그 회전에 대한 정보를 모두 인코딩하도록 장려하기 때문입니다(이를 통해 출력 공간의 다양성을 유지함).
- 그리고 나중에 Gen-1에서는 회전된 쌍의 로짓을 더 가깝게 가져옵니다(차별성을 향상시키기 위해). 이러한 이점들은 회전 헤드가 특징 임베딩 레이어에 직접 연결되거나 특징 임베딩에 대해 지식 전달이 수행될 경우에는 불가능
Comments
다시 봐야할듯