本期晚点聊聚焦于大型语言模型中注意力机制的改进,探讨了 DeepSeek 的 NSA 和 Moonshot 的 MoBA 等最新成果。两位清华大学的 AI 研究者肖朝军和傅天予,分享了他们对稀疏注意力机制的理解和实践,指出当前研究的重点已从推理阶段转向训练阶段的效率提升。讨论深入探讨了静态与动态注意力机制的权衡、硬件适配的重要性,以及长文本处理在扩展模型记忆和实现 AGI 中的关键作用。此外,还分析了多模态输入对注意力机制带来的新挑战,强调了在存储压缩和算法创新方面仍有探索空间。
Sign in to continue reading, translating and more.
Continue