本期播客探讨了 Token 级数据过滤这一最新的 AI 安全研究成果,旨在解决传统后处理安全机制的失效问题。该研究由前 Anthropic 科学家尼尔拉西和前 OpenAI 科学家亚历克拉德福德联合发布,主张在模型预训练阶段就从源头上精准删除那些会催生危险能力的关键知识碎片。相较于传统的文档级数据过滤,Token 级过滤能更精确地识别和处理文档中催生危险能力的特定 Token,通过损失屏蔽或直接移除的方式,实现外科手术式的精准能力塑造。实验结果表明,Token 级过滤能有效削弱模型在特定危险领域的能力,同时最大限度地保留其通用能力,且效果会随着模型规模的扩大而呈指数级提升。
Outlines
Part 1: 背景与现状:传统安全机制的局限
Part 2: 技术原理:Token级过滤的核心创新
Part 3: 健壮性与工程实现:弱监督流水线
Part 4: 容错处理与未来展望
Sign in to continue reading, translating and more.
Open full episode in Podwise
