2024 딥러닝/논문 리뷰 20

[논문 리뷰] Semi-supervised Domain Adaptation via Sample-to-Sample Self-Distillation(WACV, 2022)

0. Abstract 선생님과 학생 사이의 중간 스타일을 전달하여 보조 특징을 생성하고, 그런 다음 학생과 보조 사이의 출력 불일치를 최소화함으로써 모델을 훈련시킵니다. 훈련 중에 보조들은 두 도메인 간의 불일치를 서서히 줄이므로 학생이 선생님으로부터 쉽게 학습할 수 있도록 1. Introduction 도메인 적응의 목표는 원래 도메인(소스)에서 사용 가능한 레이블 데이터를 사용하여 학습자를 새로운 도메인(타겟)에 적응시키는 것 도메인 내 불일치와 도메인 간 불일치 고려 AF가 굳이 필요한 이유: 혼합 스타일 특징으로 훈련하는 것은 도메인 불일치를 줄이는 데 도움이 됩니다 [12, 45]. 이 사실에서 영감을 받아 보조 특징은 선생님과 학생 사이의 중간 스타일을 전송하여 생성됩니다. 그런 다음 모델은 학..

[논문 리뷰] Self-supervised Knowledge Distillation for Few-shot Learning(CVPR, 2020)

Abstract 퓨샷 학습 과제를 위한 심층 신경망의 표현 능력을 개선하는 간단한 접근 방법을 제안 첫 번째로, self-supervised auxiliary loss을 사용하여 특징 임베딩의 엔트로피를 최대화함으로써 최적의 출력 매니폴드를 생성하는 신경망을 훈련합니다. 두 번째 단계에서는 self-supervised 쌍을 함께 묶어 특징 임베딩의 엔트로피를 최소화하고, 학생-교사 간의 교류(KD)를 통해 매니폴드를 제한 Introduction 정리 기존 FSL 연구들 주로 메타 학습을 사용하여 새로운 과제에 대한 기본 학습자를 적응시키거나, 메트릭 학습을 통해 마진을 최대화하는 제약을 적용함으로써 FSL을 접근합 한계 클래스 내 다양성의 중요성을 무시 본 논문의 연구 관점 클래스 내 변화에 불변하는 표..

[논문 리뷰] Representational Continuity for Unsupervised Continual Learning(ICLR, 2022)

0. Abstract Unsupervised Continual Learning 우리는 학습된 특성 표현을 분석하는 체계적인 연구를 수행하고, 비약적인 잊혀짐(catastrophic forgetting)에 대한 더 뛰어난 내구성을 갖고 일관되게 더 나은 성능을 달성하며, 분포 외 작업에 대해 더 나은 일반화를 시키는 것을 보여줍니다. Lifelong Unsupervised Mixup (LUMP) 간단하지만 효과적인 기술을 제안하며 현재 작업과 이전 작업의 인스턴스 사이를 보간하여 비약적인 잊혀짐을 완화 1. Introduction UCL 구현 방법 기존의 SCL 전략을 비지도 지속 학습 프레임워크로 확장하고 현재의 최첨단 표현 학습 기술인 SimSiam (Chen & He, 2021)과 BarlowTwin..

[논문 리뷰] Continual Unsupervised Representation Learning(NeurIPS, 2019)

0. Abstract Continual Learning 순차 학습 CURL (비지도 continual learning) 비지도 표현을 학습하는 것 과제 간에 급격한 변화가 있을 때(=한 과제에서 다른 과제로 부드럽게 전환될 때) 데이터가 섞일 때와 같은 시나리오를 탐구 모델 내에서 직접 과제 추론을 수행 새로운 개념을 포착하기 위해 동적으로 확장 기존 정보 유지 위해 추가적인 리허설 기반 기술을 통합 1. Introduction Catastrophic forgetting 학습 알고리즘은 종종 독립 동일 분포 가정을 충족시키기 위해 입력 샘플을 섞어야 함 순차적 데이터로 훈련될 때, 새로운 과제나 개념이 오래된 것을 덮어쓰면서 성능 저하 따라서 현재 정보로 과거 or 미래 정보 성능 개선 가능 ⇒ But,..

[논문 리뷰] Distilling the Knowledge in a Neural Network(NeurIPS, 2015)

0. Abstract 거의 모든 머신 러닝 알고리즘의 성능을 향상시키는 매우 간단한 방법은 같은 데이터에 대해 여러 다른 모델을 훈련시킨 후 그들의 예측을 평균내는 것 한계점: 모델 전체의 앙상블을 사용하여 예측을 하는 것은 번거롭고, 개별 모델이 큰 신경망인 경우 특히 많은 사용자에게 배포하는 데 너무 많은 계산 비용이 들 수 있습니다. Caruana와 그의 동료들은 앙상블의 지식을 단일 모델에 압축하여 훨씬 쉽게 배포할 수 있음을 보여주었고, 우리는 다른 압축 기술을 사용하여 이 접근 방식을 더 발전시킵니다. 우리는 MNIST에서 몇 가지 놀라운 결과를 달성하고, 앙상블의 모델들의 지식을 단일 모델에 증류함으로써 많이 사용되는 상업 시스템의 음향 모델을 크게 개선할 수 있음을 보여줍니다. 또한, 하나..

[논문 리뷰] Be Your Own Teacher: Improve the Performance of Convolutional Neural Networks via Self Distillation(ICCV, 2019)

0. Abstract 기존 NN에서 accuracy 향상 방법 깊거나 더 확장된 네트워크 이 논문에서 NN에서 accuracy 향상 방법 : Self-distillation 기존 Knowledge distillation student network를 pretrain된 teacher모델의 softmax layer output에 근사하도록 함 self distillation 자기 자신의 네트워크에서 정보 증류 방법 여러 section으로 나눔 더 깊은 네트워크의 지식을 낮은 곳으로 squeeze해줌 1. Introduction [1] 예측 정확도 향상 & 반응 시간/컴퓨터 자원 감소 필요함 기존에 시도된 모델들 ResNet 150, ResNet1000 : 성능 조금 향상 & 엄청 거대한 자원량 (모델 경량화..

[논문 리뷰] Generalized Source-free Domain Adaptation(ICCV, 2021)

Contribution/3줄 요약 Source data에 대해 performance drop을 고려하는 Generalized source-free domain adaption을 제안한다. Source-free domain adaptation을 수행하기 위해 source model의 (source, target data에 대해)shift된 feature space상에서 class간의 cluster관계를 활용한 local structure clustering을 제안한다. G-SFDA setting을 해결하기 위해서 source와 target에 대한 backprop.을 구분하기 위해 Sparse Domain Attention을 제안한다. Domain Adaptation Deep Learning method는 ..

[논문 리뷰] Source-Free Domain Adaptation via Distribution Estimation(CVPR, 2022)

Abstract Domain Adaptation 이란, transfer the knowledge learned from a labeled source domain to an unlabeled target domain whose data distributions are different. source domain 에서의 학습 데이터는 real-world 에서는, 보안문제로 사용불가능한 경우가 자주있다. 그래서 Source-Free Domain Adaptation (SFDA) 방법이 주목받고 있음. 이름 그대로 source data 를 이용하지 않고 domain adaptation을 수행하는… 논문에서 제안하는 방법은 SFDA-DE : source Distribution Estimation 을 이용하여 직접..

[논문 리뷰] Masked Autoencoders Are Scalable Vision Learners(CVPR, 2021)

Abstract Mased auto encoders(MAE)가 컴퓨터 비전 분야에서 scalable self-supervised learners 임을 증명 아이디어 : 입력 이미지의 패치를 랜덤하게 마스킹한 후 missing pixels를 복원하도록 학습 인코더-디코더 구조는 비대칭 구조. 인코더: 마스킹 되지 않은 부분만 처리 디코더: 인코더보다 훨 가볍게 설정되고 마스킹된 부분과 되지 않은 부분 모두 처리 입력 이미지에 대한 최적 마스킹 비율 : 75% 학습 속도&정확도 높일 수 있었음 최종적으로 transfer learning 성능도 검증 Intro 딥러닝이 핫해지고 하드웨어들이 발전하면서 거대한 모델들이 엄청나게 많은 데이터를 overfit하게 학습하게 되었고 수 백만의 labled 이미지를 필요..