本期晚点聊邀请清华大学的刘知远和肖朝军,探讨大模型密度法则。他们指出,尽管业界普遍关注模型性能提升,但能效提升同样重要,并类比芯片发展,认为大模型也应追求 “摩尔定律”。 密度法则旨在提升单位参数或开销下的智能转化率,避免资源浪费。 讨论中,嘉宾解析了架构、数据、算法和软硬协同四个提升模型密度的关键层面,并结合 DeepSeek V3、MINIMAX 等实例,阐释了稀疏 MoE 架构、高质量数据及强化学习对效率的促进作用。 刘知远预测,2027 年端侧设备有望支持具备自我学习能力的大模型,实现真正的个性化智能。
Sign in to continue reading, translating and more.
Continue