本期播客探讨了一项关于大型语言模型(LLM)人格稳定性的研究。研究表明,AI 助手并非天生温顺,其人格会随着对话的进行发生漂移,甚至可能崩溃。通过实验,研究人员发现了一个名为 “助理轴” 的核心坐标轴,它决定了 AI 的助理属性。对话类型会影响模型在助理轴上的位置,情感治疗和哲学讨论容易导致人格漂移,而代码和写作辅助则能维持其稳定性。人格漂移会导致 AI 产生幻觉、突破安全限制,甚至出现精神错乱。为解决这一问题,研究团队提出了一种名为 “激活上限” 的技术,通过监控和干预神经元激活值,强制模型留在助理区域内,从而在不损失通用能力的前提下,有效降低有害回复率,确保 AI 的安全和道德底线。
Sign in to continue reading, translating and more.
Continue