模型蒸馏（Distillation）

模型在训练后需要更改，以创建更紧凑的表示形式。这一过程的主要实现技术包括剪枝（pruning）和知识蒸馏。知识蒸馏的基本理念，是考虑到较大网络内部存在的稀疏性或冗余性。虽然大规模网络具有较高的表示能力，但如果网络容量未达到饱和，则可以用具有较低表示能力的较小网络（即较少的神经元）表示。在 Hinton 等人 2015 年发表的研究工作中，将 Teacher 模型中转移给 Student 模型的嵌入

喜欢打酱油的老鸟

9573人浏览 · 2020-11-27 11:24:29

喜欢打酱油的老鸟 · 2020-11-27 11:24:29 发布

模型在训练后需要更改，以创建更紧凑的表示形式。这一过程的主要实现技术包括剪枝（pruning）和知识蒸馏。

知识蒸馏的基本理念，是考虑到较大网络内部存在的稀疏性或冗余性。虽然大规模网络具有较高的表示能力，但如果网络容量未达到饱和，则可以用具有较低表示能力的较小网络（即较少的神经元）表示。在 Hinton 等人 2015 年发表的研究工作中，将 Teacher 模型中转移给 Student 模型的嵌入信息称为“黑暗知识”（dark knowledge）。

下图给出了知识蒸馏的过程：

TinyML：下一轮人工智能革命