Trending
Ask AI
Library
You
Sign in
Help
Toggle theme
SIGN IN
Prev
Next
Summary
Mindmap
Transcript
Keywords
Highlights
Shownotes
Trending
Ask AI
Library
You
Enjoy Podwise!
00:00
00:00
1x
10
10
Enjoy Podwise!
Detail
Transcript
【第379期】大模型的 #蒸馏 (Distillation)及 #DeepSeek 遭遇的指控 | Jeff科技视角 | Podwise
Prev
Next
YouTube
30 Jan 2025
24m
【第379期】大模型的 #蒸馏 (Distillation)及 #DeepSeek 遭遇的指控
Jeff科技视角
YouTube
Play
Summary
Mindmap
Transcript
Keywords
Highlights
Shownotes
Sign in to access all AI-generated content
Continue
这是一个关于深度学习模型知识蒸馏(Distillation)的单人播客。播客首先介绍了 DeepSeek 模型及其引发的争议,争议主要集中在 DeepSeek 是否通过知识蒸馏技术从 OpenAI 等大模型中复制知识。然后,播客以通俗易懂的方式解释了知识蒸馏的原理,将其比作老师教学生学习的过程,并详细阐述了知识蒸馏在模型架构、知识结构和学习过程中的作用,以及如何通过优化提高 Student AI 模型的性能,甚至超越 Teacher AI。最后,播客介绍了 DeepSeek 在工程方面的一些技术创新,例如混合专家(MOE)、多头潜在注意力机制和多标记预测等,并解释了混合精度(FP8)的应用及其优缺点。 通过这个播客,听众可以了解知识蒸馏的原理和应用,以及 DeepSeek 模型的技术创新。
Takeaways
Outlines
Q & A
Preview
How to Get Rich: Every Episode
Naval