0. Abstract 거의 모든 머신 러닝 알고리즘의 성능을 향상시키는 매우 간단한 방법은 같은 데이터에 대해 여러 다른 모델을 훈련시킨 후 그들의 예측을 평균내는 것 한계점: 모델 전체의 앙상블을 사용하여 예측을 하는 것은 번거롭고, 개별 모델이 큰 신경망인 경우 특히 많은 사용자에게 배포하는 데 너무 많은 계산 비용이 들 수 있습니다. Caruana와 그의 동료들은 앙상블의 지식을 단일 모델에 압축하여 훨씬 쉽게 배포할 수 있음을 보여주었고, 우리는 다른 압축 기술을 사용하여 이 접근 방식을 더 발전시킵니다. 우리는 MNIST에서 몇 가지 놀라운 결과를 달성하고, 앙상블의 모델들의 지식을 단일 모델에 증류함으로써 많이 사용되는 상업 시스템의 음향 모델을 크게 개선할 수 있음을 보여줍니다. 또한, 하나..