Trending
Ask AI
Library
You
Sign in
Help
Toggle theme
SIGN IN
Prev
Next
Summary
Mindmap
Transcript
Keywords
Highlights
Shownotes
Trending
Ask AI
Library
You
Enjoy Podwise!
00:00
00:00
1x
10
10
Enjoy Podwise!
Detail
Transcript
MoE遇到大模型,到底选大参数少专家还是?小参数多专家呢? | ZOMI酱 | Podwise
Prev
Next
YouTube
11 Mar 2025
20m
MoE遇到大模型,到底选大参数少专家还是?小参数多专家呢?
ZOMI酱
YouTube
Play
Summary
Mindmap
Transcript
Keywords
Highlights
Shownotes
Sign in to access all AI-generated content
Continue
本期节目探讨了大语言模型与混合专家(MoE)架构结合的最新趋势。主持人 ZOMI 以 Mistral AI 的 8x7B 和 8x22B 模型为例,分析了大参数小专家模型的优势和劣势,例如计算效率高但成本高、专家负载不均衡等问题。随后,节目深入分析了 Google 的 Grok 模型系列,以及其在训练中使用了高达 20 万张 H100 GPU 的巨大算力,并引发了关于算力投入性价比的讨论。更重要的是,节目重点关注了 DeepSeek 模型的三个版本,从 DeepSeek MoE 到 DeepSeek V3,展现了模型规模增大、激活数降低的趋势,以及小参数多专家模型的兴起。 与早期的大参数小专家模型相比,小参数多专家模型具有更高的计算效率、更好的扩展性和更低的部署成本,但路由设计也更加复杂。 最后,主持人总结了两种模型架构的优缺点,并展望了小参数多专家模型在未来 AGI 发展中的潜力,认为其通过细粒度的专家分工和动态路由,能够实现更高的模型容量和更低的推理成本,从而成为 AGI 发展的重要路径。 节目中穿插了对相关技术的深入解释和对行业趋势的预测,并鼓励听众学习 AI 系统相关知识。
Takeaways
Outlines
Q & A
Preview
How to Get Rich: Every Episode
Naval