本期节目深入探讨了人工智能的可解释性,特别是 “机械可解释性” 的最新研究进展。研究人员通过分析 AI 模型的内部结构,发现其表征方式出乎意料地简洁,提出了线性表征假说,即在高维空间中用方向来表示不同概念。更令人惊讶的是,许多神经元展现出多义性,能够同时对多个看似无关的概念做出反应,这被称为叠加假说。这表明,AI 可能以一种高度压缩和抽象的方式处理信息,这与人类大脑的运作方式可能存在根本差异。这些发现不仅有助于我们理解 AI 的工作机制,还为 AGI 的安全性和可控性研究提供了重要启示,但同时也带来了新的挑战,比如如何应对 AI 系统中的 “暗物质” 问题。