模型蒸馏与小模型的崛起

2026年6月8日 · 蒸馏小模型

提到大模型，大家第一反应是”越大越强”。但在真实产品里，“大”往往意味着昂贵、缓慢、难以部署。于是另一条路越来越受重视：用各种手段把模型做小，让它在保持可用能力的同时跑得又快又省。这篇文章聊聊小模型背后的几项关键技术。

为什么需要小模型

大模型的代价是实打实的：推理要昂贵的 GPU，响应有延迟，规模化调用时成本高企；更别说很多场景需要在手机、车机、摄像头这类资源受限的设备上离线运行——大模型根本塞不进去。

而很多任务其实不需要”全能选手”。一个专注于客服意图识别、或者文本分类的场景，用一个经过打磨的小模型就能又快又准地完成，成本可能只有大模型的零头。“用对的模型做对的事”，比”什么都用最大的”更工程化。

知识蒸馏：让小模型向大模型学习

知识蒸馏（Knowledge Distillation）的思路很形象：让一个能力强的”教师模型”去教一个更小的”学生模型”。

关键在于教师传递的不只是”标准答案”。比如判断一张图是猫还是狗，硬标签只告诉你”是猫”；而教师模型会输出一个概率分布——“90% 是猫、8% 是狐狸、2% 是狗”。这个分布里藏着教师对类别之间相似关系的理解（“猫和狐狸有点像”），被称为”软标签”。学生模型学习这些软标签，往往能用小得多的体量逼近教师的表现。

更进一步，可以用大模型批量生成高质量的训练数据（问答对、推理过程），再拿去训练小模型。这种”数据层面的蒸馏”近来非常流行，让小模型在特定能力上的表现快速提升。

量化：用更少的比特表示权重

模型的权重默认用较高精度的浮点数（如 16 位）存储。量化（Quantization）就是把它们压缩成更低精度（如 8 位甚至 4 位整数），从而大幅减少显存占用和计算量。

直觉上这会损失精度，但实践证明，配合得当的量化策略（尤其是训练后量化和量化感知训练），模型质量的下降常常很小，而体积和速度的收益却很大。这是端侧部署最常用的手段之一。

剪枝：去掉不重要的连接

剪枝（Pruning）的灵感来自”神经网络里有很多冗余”。通过分析哪些权重或神经元对结果贡献很小，把它们裁掉，模型就更精简。剪枝可以是非结构化的（去掉零散的权重）或结构化的（成块去掉整行整列，更利于硬件加速）。剪枝后通常再微调一下，把损失补回来。

走向端侧的趋势

蒸馏、量化、剪枝常常组合使用：先蒸馏出一个小模型，再量化压缩，必要时剪枝。最终目标是让模型能在手机、PC、嵌入式设备上本地运行。端侧部署带来几个好处：响应更快（不用走网络）、隐私更好（数据不出设备）、成本更低（不依赖云端算力）。

可以预见，“云端大模型负责复杂任务、端侧小模型负责高频常见任务”的分工，会成为越来越普遍的架构。

小结

小模型的崛起不是大模型的对立面，而是工程现实的必然选择。通过蒸馏向强者学习、用量化和剪枝瘦身，小模型在速度、成本和可部署性上的优势，正让 AI 真正走进每一台设备。

← 返回首页