本期节目探讨了 Anthropic 团队对 Claude 大语言模型运作机制的最新研究成果。 面对大语言模型强大的能力和时常出现的困惑,研究团队借鉴神经科学方法,试图 “扫描” 模型内部活动,开发了名为 “电路追踪” 的创新方法,并创建可解释的替代模型来揭示模型的计算图。 更重要的是,研究人员通过分析 Claude 3.5 在多语言能力、诗歌创作和数学计算等方面的表现,揭示了模型内部的运作机制,例如多语言共享组件、提前规划的诗歌创作过程以及并行计算的数学策略。 例如,在多语言处理中,模型利用共享的多语言组件和特定语言组件,实现跨语言的知识迁移;在诗歌创作中,模型会提前规划押韵和句子结构;在数学计算中,模型采用多条并行计算路径,最终得出准确答案。 然而,研究也发现模型在推理和幻觉方面仍存在局限性,例如在复杂的推理问题中,模型有时会给出看似合理但实际上错误的推理过程。 这项研究为我们理解大语言模型的运作机制打开了一扇新的大门,尽管目前还存在一些局限性,但随着技术的不断进步,我们将会对 AI 的 “大脑” 有更深入的了解。 这也意味着未来对 AI 模型的解释性和可靠性研究将更加重要。
Sign in to continue reading, translating and more.
Continue