【第379期】大模型的 #蒸馏 (Distillation)及 #DeepSeek 遭遇的指控

这是一个关于深度学习模型知识蒸馏（Distillation）的单人播客。播客首先介绍了 DeepSeek 模型及其引发的争议，争议主要集中在 DeepSeek 是否通过知识蒸馏技术从 OpenAI 等大模型中复制知识。然后，播客以通俗易懂的方式解释了知识蒸馏的原理，将其比作老师教学生学习的过程，并详细阐述了知识蒸馏在模型架构、知识结构和学习过程中的作用，以及如何通过优化提高 Student AI 模型的性能，甚至超越 Teacher AI。最后，播客介绍了 DeepSeek 在工程方面的一些技术创新，例如混合专家（MOE）、多头潜在注意力机制和多标记预测等，并解释了混合精度（FP8）的应用及其优缺点。通过这个播客，听众可以了解知识蒸馏的原理和应用，以及 DeepSeek 模型的技术创新。

Outlines

Sign in to continue reading, translating and more.