0. Abstract
- Continual Learning
- 순차 학습
- CURL (비지도 continual learning)
- 비지도 표현을 학습하는 것
- 과제 간에 급격한 변화가 있을 때(=한 과제에서 다른 과제로 부드럽게 전환될 때)
- 데이터가 섞일 때와 같은 시나리오를 탐구
- 모델 내에서 직접 과제 추론을 수행
- 새로운 개념을 포착하기 위해 동적으로 확장
- 기존 정보 유지 위해 추가적인 리허설 기반 기술을 통합
1. Introduction
- Catastrophic forgetting
- 학습 알고리즘은 종종 독립 동일 분포 가정을 충족시키기 위해 입력 샘플을 섞어야 함
- 순차적 데이터로 훈련될 때, 새로운 과제나 개념이 오래된 것을 덮어쓰면서 성능 저하
- 따라서 현재 정보로 과거 or 미래 정보 성능 개선 가능
⇒ But, 기존 continual learning은 대부분 지도 학습임. 비지도학습 기반이 많이 없음.
- 2가지 방식에서의 비지도
- 과제 레이블의 부재(또는 실제로 잘 정의된 과제 자체) 측면
- (클래스 레이블, 회귀 목표, 또는 외부 보상과 같은) 외부 감독의 부재 측면
- (데이터의 모든 기본 특성 포착 + task간 경계 해결 + 두 측면 함께 고려되는게 좋음)
- 제안하는 것
- 모델에 새로운 task를 포착하고 동적으로 확장할 수 있는 능력을 부여
- 재앙적 망각을 최소화하는 방법
- 다양한 비지도 설정에서 실험, 평가
- 과제나 클래스가 순차적으로 제시될 때,
- 훈련 데이터가 섞일 때,
- 모호한 과제 경계와 함께, 전환들이 이산적이기보다 연속적일 때
2. Model
2.1 Inference over tasks
- 문제 정의
- 비지도 지속적 학습 문제를 해결하기 위해 생성 모델을 사용합니다. 이 모델은 결합 확률 $p(x, y, z) = p(y)p(z | y)p(x | z)$를 사용하여, 범주형 변수 y가 현재 과제를 나타내고, 잠재 변수 z에 대한 과제별 가우시안 매개변수를 인스턴스화한 후 입력 x를 생성합니다.
- 모델 구조
- 모델은 각 구성 요소가 신경망에 의해 매개변수화되며, 입력은 공유된 표현으로 인코딩되고, 혼합 확률 q(y | x)는 출력 소프트맥스 "과제 추론" 헤드에 의해 결정되며, q(z | x, y)의 가우시안 매개변수는 구성 요소별 잠재 인코딩 헤드의 출력에 의해 생성됩니다.
- 사후 추론
- 모델의 $p(y, z | x)$ 사후 추론은 불가능하므로, 근사 변분 사후확률 $q(y, z | x) = q(y | x)q(z | x, y)$ 를 사용합니다.
- 디코딩 및 재구성
- 디코더는 혼합 가우시안 잠재 공간 $z$ 에서 재구성 $\hat{x}$ 으로 매핑하는 단일 네트워크입니다. 이 아키텍처는 각 가우시안의 매개변수를 ${µ(k), σ(k)}$ 로 나타내는 그림 2에 나타나 있습니다.
- 손실 함수
- 모델의 손실은 증거 하한(ELBO)에 의해 주어지며, $q(y | x)$에 대한 기대값은 K 범주형 옵션을 통해 정확하게 계산되지만, $q(z | x, y)$에 대한 기대값은 샘플링을 필요로 합니다.
- 몬테카를로 근사
- 결과적인 몬테카를로 근사는 단일 구성 요소 VAE와 명확하게 대응되는 친숙한 용어 집합을 포함합니다. 여기서 $ez(k) ∼ q(z | x, y = k)$는 재매개변수화 트릭을 사용하여 샘플링됩니다.
- 모델의 동기
- 이 손실 함수는 모델이 데이터를 재구성하고 가능한 경우 클러스터링을 수행하도록 장려합니다. 모델은 다양한 입력 데이터의 다양성을 활용하여 데이터 내의 다른 이산 구조(예: 클래스)에 대해 다른 구성 요소를 사용하는 방법을 학습할 수 있습니다.
2.2 Component-constrained learning
- 목표 설정: 주요 목표는 비지도 설정에서 작동하는 것이지만, 특정 구성 요소를 훈련하고자 하거나 자기 지도 방식으로 레이블을 생성할 수 있는 경우도 있습니다.
- 레이블 사용 가능 시: 레이블 $y_{obs}$가 사용 가능한 경우, 지도 손실을 사용하여 훈련할 수 있습니다. 이는 수식 3에서 변형된 것으로, 주어진 레이블에 대한 구성 요소별 ELBO를 계산합니다.
- 지도 손실: 지도 손실 $L_{sup}$은 다음과 같이 정의됩니다.
- 지도 손실의 구성:
- 첫 번째 항은 관찰된 레이블 yobs에 대해 계산된 데이터 x의 로그 확률입니다.
- 두 번째 항은 관찰된 레이블에 대한 잠재 변수 z의 변분 사후 확률과 사전 확률 간의 KL 발산입니다.
- 세 번째 항은 모델이 실제 레이블 yobs를 예측할 로그 확률입니다.
- 손실의 역할: 이 지도 손실은 모델이 주어진 레이블에 대해 데이터를 잘 재구성하도록 장려하며, 잠재 변수와 레이블의 일치성을 높이고, 정확한 레이블 예측을 장려합니다
2.3 Dynamic expansion
먼 개소린지
2.4 Combatting forgetting via mixture generative replay
1도모르겠다
3. Related Work
Generative models
생성 모델 활용하여 차별적 잠재 공간 학습
- 기존 방법들
- VAE 기반 가우시안 잠재 혼합 활용
- 비지도방식 클래스 구조 포착
- 베이지안 파라미터 없는 사전 분포 제안
- 잠재 공간에서 디리클레 사후분포 제안
- 이전에 관찰된 구성 요소 붕괴안되도록
- Variational Deep Embedding (VaDE)
- 독립 동일 분포 설정에서 클러스터링 목표
- CURL과의 공통점
- 동일 생성 과정
- CURL과의 차이점
- VaDE) mean-field approximation: 입력이 주어진 조건에서 **y와 z가 조건부 (독립O)**이라고 가정
- CURL) (독립X) z를 y에 조건화함으로써 동일한 구조화된 잠재 공간 z 내에서 샘플의 클래스 간 및 클래스 내 불확실성을 적절히 포착
- VAE 기반 가우시안 잠재 혼합 활용
Continual learning
- 기존 방법들 (이전 데이터에 대한 성능이 감소하지 않도록)
- 정규화 기반 방법: 이전 task에 중요한 파라미터 변경 최소화 & 중요도 측정 위해 일부 파라미터별 가중치 이용
- 제약 최적화 사용
- 오래된 모델이나 작업에서 정보를 추출
- 새로운 task가 이전 task에서 사용되지 않았던 파라미터 활용하도록 하는 방법
- “free” linear parameter subspaces 찾기
- 파라미터에 대한 attention mask 학습
- 에이전트를 사용하여 네트워크를 통한 새로운 활성화 경로를 찾는 것
- 확장 기반 모델은 추가 작업을 위해 용량을 동적으로 증가
- 필요에 따라 네트워크를 가지치기하여 용량을 제한
- 리허설 기반 방법: 이전 task의 데이터 분포를 동시에 훈련된 생성 모델의 샘플로 포착
- 베이지안 해석 하에 정규화 기반 접근 방식
- 생성 모델 대신 클래스별 예시를 학습
- 정규화 기반 방법: 이전 task에 중요한 파라미터 변경 최소화 & 중요도 측정 위해 일부 파라미터별 가중치 이용
Task-agnostic continual learning
- 기존 방법들
- label, 경계 없는 continual learning
- continual learning에 대한 task-free 접근법
- 정규화 기반 메모리 인식 시냅스(MAS) 접근 방식
- forget완화+정규화 가중치 더 잘 추정하기 위해 어려운 예제 버퍼 유지+가중치 업데이트할 시기 감지
- 각 파라미터의 평균과 분산에 대한 베이지안 작업-불가지론적 학습 업데이트 규칙 제안
- 모호한 task 경계 처리 능력 시연
- supervised task에만 적용 가능
- class label기반으로 task추론하는 “label trick” 활용 가능
- task별 attention mask와 함께 해체된 latent space 학습
- 데이터셋 간의 급격한 데이터 분포 변화에 의존
- : 점진적 작업, 도메인, 그리고 클래스 학습의 시나리오를 식별
- label, 경계 없는 continual learning
- 논문 방법들
- task label과 경계 알려지지X
- task자체가 supervised된 class X = 전체 비감독 continual learning
- = 머하는 task인지도 모를때의 continual learning
5. Conclusions
- 논문 setting
- task label과 경계 모름
- task자체가 class label이나 외부 지도가 부족한 비지도 continual learning문제
- CURL
- 가우스 혼합 잠재 공간을 통한 task inference 수행
- 동적 확장(Dynamic expansion) 및 혼합 생성 재생(mixture generative replay: MGR) 사용하여 새로운 개념 인스턴스화 + 과거정보 forgetting 최소화
- future work
- forgetting을 완화하기 위한 추가 기술 조사
- 강화학습 분야로의 확장
Comment
Generative model, continual learning 더 공부해야겠다...