2024 딥러닝/논문 리뷰

[논문 리뷰] Continual Unsupervised Representation Learning(NeurIPS, 2019)

융딩2 2024. 2. 26. 11:38

0. Abstract

  • Continual Learning
    • 순차 학습
  • CURL (비지도 continual learning)
    • 비지도 표현을 학습하는 것
    • 과제 간에 급격한 변화가 있을 때(=한 과제에서 다른 과제로 부드럽게 전환될 때)
    • 데이터가 섞일 때와 같은 시나리오를 탐구
    • 모델 내에서 직접 과제 추론을 수행
    • 새로운 개념을 포착하기 위해 동적으로 확장
    • 기존 정보 유지 위해 추가적인 리허설 기반 기술을 통합

1. Introduction

  • Catastrophic forgetting
    • 학습 알고리즘은 종종 독립 동일 분포 가정을 충족시키기 위해 입력 샘플을 섞어야 함
    • 순차적 데이터로 훈련될 때, 새로운 과제나 개념이 오래된 것을 덮어쓰면서 성능 저하
    • 따라서 현재 정보로 과거 or 미래 정보 성능 개선 가능

⇒ But, 기존 continual learning은 대부분 지도 학습임. 비지도학습 기반이 많이 없음.

  • 2가지 방식에서의 비지도
    • 과제 레이블의 부재(또는 실제로 잘 정의된 과제 자체) 측면
    • (클래스 레이블, 회귀 목표, 또는 외부 보상과 같은) 외부 감독의 부재 측면
  • (데이터의 모든 기본 특성 포착 + task간 경계 해결 + 두 측면 함께 고려되는게 좋음)
  • 제안하는 것
    • 모델에 새로운 task를 포착하고 동적으로 확장할 수 있는 능력을 부여
    • 재앙적 망각을 최소화하는 방법
    ⇒ task정보와 클래스 레이블에 대한 의존성을 제거하면서 지도 학습에 쉽게 적용될 수 있는 방법
    • 다양한 비지도 설정에서 실험, 평가
      • 과제나 클래스가 순차적으로 제시될 때,
      • 훈련 데이터가 섞일 때,
      • 모호한 과제 경계와 함께, 전환들이 이산적이기보다 연속적일 때

2. Model

2.1 Inference over tasks

  1. 문제 정의
    • 비지도 지속적 학습 문제를 해결하기 위해 생성 모델을 사용합니다. 이 모델은 결합 확률 $p(x, y, z) = p(y)p(z | y)p(x | z)$를 사용하여, 범주형 변수 y가 현재 과제를 나타내고, 잠재 변수 z에 대한 과제별 가우시안 매개변수를 인스턴스화한 후 입력 x를 생성합니다.
  2. 모델 구조
    • 모델은 각 구성 요소가 신경망에 의해 매개변수화되며, 입력은 공유된 표현으로 인코딩되고, 혼합 확률 q(y | x)는 출력 소프트맥스 "과제 추론" 헤드에 의해 결정되며, q(z | x, y)의 가우시안 매개변수는 구성 요소별 잠재 인코딩 헤드의 출력에 의해 생성됩니다.
  3. 사후 추론
    • 모델의 $p(y, z | x)$ 사후 추론은 불가능하므로, 근사 변분 사후확률 $q(y, z | x) = q(y | x)q(z | x, y)$ 를 사용합니다.
  4. 디코딩 및 재구성
    • 디코더는 혼합 가우시안 잠재 공간 $z$ 에서 재구성 $\hat{x}$ 으로 매핑하는 단일 네트워크입니다. 이 아키텍처는 각 가우시안의 매개변수를 ${µ(k), σ(k)}$ 로 나타내는 그림 2에 나타나 있습니다.
  5. 손실 함수
    • 모델의 손실은 증거 하한(ELBO)에 의해 주어지며, $q(y | x)$에 대한 기대값은 K 범주형 옵션을 통해 정확하게 계산되지만, $q(z | x, y)$에 대한 기대값은 샘플링을 필요로 합니다.
  6. 몬테카를로 근사
    • 결과적인 몬테카를로 근사는 단일 구성 요소 VAE와 명확하게 대응되는 친숙한 용어 집합을 포함합니다. 여기서 $ez(k) ∼ q(z | x, y = k)$는 재매개변수화 트릭을 사용하여 샘플링됩니다.
  7. 모델의 동기
    • 이 손실 함수는 모델이 데이터를 재구성하고 가능한 경우 클러스터링을 수행하도록 장려합니다. 모델은 다양한 입력 데이터의 다양성을 활용하여 데이터 내의 다른 이산 구조(예: 클래스)에 대해 다른 구성 요소를 사용하는 방법을 학습할 수 있습니다.

2.2 Component-constrained learning

  • 목표 설정: 주요 목표는 비지도 설정에서 작동하는 것이지만, 특정 구성 요소를 훈련하고자 하거나 자기 지도 방식으로 레이블을 생성할 수 있는 경우도 있습니다.
  • 레이블 사용 가능 시: 레이블 $y_{obs}$가 사용 가능한 경우, 지도 손실을 사용하여 훈련할 수 있습니다. 이는 수식 3에서 변형된 것으로, 주어진 레이블에 대한 구성 요소별 ELBO를 계산합니다.
  • 지도 손실: 지도 손실 $L_{sup}$은 다음과 같이 정의됩니다.

  • 지도 손실의 구성:
    • 첫 번째 항은 관찰된 레이블 yobs에 대해 계산된 데이터 x의 로그 확률입니다.
    • 두 번째 항은 관찰된 레이블에 대한 잠재 변수 z의 변분 사후 확률과 사전 확률 간의 KL 발산입니다.
    • 세 번째 항은 모델이 실제 레이블 yobs를 예측할 로그 확률입니다.
  • 손실의 역할: 이 지도 손실은 모델이 주어진 레이블에 대해 데이터를 잘 재구성하도록 장려하며, 잠재 변수와 레이블의 일치성을 높이고, 정확한 레이블 예측을 장려합니다

2.3 Dynamic expansion

먼 개소린지

 

2.4 Combatting forgetting via mixture generative replay

1도모르겠다

 


3. Related Work

Generative models

생성 모델 활용하여 차별적 잠재 공간 학습

  • 기존 방법들
    • VAE 기반 가우시안 잠재 혼합 활용
      • 비지도방식 클래스 구조 포착
      • 베이지안 파라미터 없는 사전 분포 제안
    • 잠재 공간에서 디리클레 사후분포 제안
      • 이전에 관찰된 구성 요소 붕괴안되도록
    • Variational Deep Embedding (VaDE)
      • 독립 동일 분포 설정에서 클러스터링 목표
      • CURL과의 공통점
        • 동일 생성 과정
      • CURL과의 차이점
        • VaDE) mean-field approximation: 입력이 주어진 조건에서 **y와 z가 조건부 (독립O)**이라고 가정
        • CURL) (독립X) z를 y에 조건화함으로써 동일한 구조화된 잠재 공간 z 내에서 샘플의 클래스 간 및 클래스 내 불확실성을 적절히 포착

Continual learning

  • 기존 방법들 (이전 데이터에 대한 성능이 감소하지 않도록)
    • 정규화 기반 방법: 이전 task에 중요한 파라미터 변경 최소화 & 중요도 측정 위해 일부 파라미터별 가중치 이용
      • 제약 최적화 사용
      • 오래된 모델이나 작업에서 정보를 추출
    • 새로운 task가 이전 task에서 사용되지 않았던 파라미터 활용하도록 하는 방법
      • “free” linear parameter subspaces 찾기
      • 파라미터에 대한 attention mask 학습
      • 에이전트를 사용하여 네트워크를 통한 새로운 활성화 경로를 찾는 것
      • 확장 기반 모델은 추가 작업을 위해 용량을 동적으로 증가
      • 필요에 따라 네트워크를 가지치기하여 용량을 제한
    • 리허설 기반 방법: 이전 task의 데이터 분포를 동시에 훈련된 생성 모델의 샘플로 포착
      • 베이지안 해석 하에 정규화 기반 접근 방식
      • 생성 모델 대신 클래스별 예시를 학습
      → 잘 정의된 작업 경계에 의존하며, 종종 일련의 감독 학습 작업에 대해 평가됨

Task-agnostic continual learning

  • 기존 방법들
    • label, 경계 없는 continual learning
      • continual learning에 대한 task-free 접근법
      • 정규화 기반 메모리 인식 시냅스(MAS) 접근 방식
        • forget완화+정규화 가중치 더 잘 추정하기 위해 어려운 예제 버퍼 유지+가중치 업데이트할 시기 감지
      • 각 파라미터의 평균과 분산에 대한 베이지안 작업-불가지론적 학습 업데이트 규칙 제안
        • 모호한 task 경계 처리 능력 시연
        • supervised task에만 적용 가능
        • class label기반으로 task추론하는 “label trick” 활용 가능
      • task별 attention mask와 함께 해체된 latent space 학습
        • 데이터셋 간의 급격한 데이터 분포 변화에 의존
    • : 점진적 작업, 도메인, 그리고 클래스 학습의 시나리오를 식별
  • 논문 방법들
    • task label과 경계 알려지지X
    • task자체가 supervised된 class X = 전체 비감독 continual learning
    • = 머하는 task인지도 모를때의 continual learning

5. Conclusions

  • 논문 setting
    • task label과 경계 모름
    • task자체가 class label이나 외부 지도가 부족한 비지도 continual learning문제
  • CURL
    • 가우스 혼합 잠재 공간을 통한 task inference 수행
    • 동적 확장(Dynamic expansion) 및 혼합 생성 재생(mixture generative replay: MGR) 사용하여 새로운 개념 인스턴스화 + 과거정보 forgetting 최소화
  • future work
    • forgetting을 완화하기 위한 추가 기술 조사
    • 강화학습 분야로의 확장

Comment

Generative model, continual learning 더 공부해야겠다...