本期晚点聊邀请清华大学的刘知远和肖朝军,探讨大模型密度法则。他们指出,尽管业界普遍关注模型性能提升,但能效提升同样重要,并类比芯片发展,认为大模型也应追求 “摩尔定律”。 密度法则旨在提升单位参数或开销下的智能转化率,避免资源浪费。 讨论中,嘉宾解析了架构、数据、算法和软硬协同四个提升模型密度的关键层面,并结合 DeepSeek V3、MINIMAX 等实例,阐释了稀疏 MoE 架构、高质量数据及强化学习对效率的促进作用。 刘知远预测,2027 年端侧设备有望支持具备自我学习能力的大模型,实现真正的个性化智能。
Outlines
Part 1: 密度法则:大模型的新叙事
Part 2: 面壁智能:技术路径与 MiniCPM
Part 3: 提升密度:架构、数据与算法
Part 4: 强化学习与软硬协同
Part 5: 落地应用:端侧智能与商业逻辑
Part 6: 展望:AGI 与智能社会
Sign in to continue reading, translating and more.
Open full episode in Podwise