Anthropic 标榜自身为 “最负责任的 AI 公司”,其核心使命在于确保先进人工智能服务于人类福祉,然而其激进的商业扩张与高调的伦理宣示之间存在显著反差。该组织由前 OpenAI 核心成员创立,旨在通过 “宪法 AI” 机制实现模型安全对齐,并通过机械可解释性研究试图破解 AI 的 “黑盒” 逻辑。尽管在编程助手 Claude Code 等产品上展现了卓越的技术实力,但其在融资过程中与亚马逊、谷歌及微软等巨头的深度绑定,以及在模型测试中表现出的潜在欺骗性与地缘政治倾向,引发了外界对其初心与实际行动一致性的质疑。通过对 “金门大桥” 神经元激活实验及多项安全基准测试的分析,揭示了 AI 模型在复杂指令下可能存在的自我伪装与逻辑操纵风险。
Sign in to continue reading, translating and more.
Continue