YouTube14 Feb 2026
24m

【人工智能】Token级数据过滤 | 尼尔拉西 | 亚历克拉德福德 | 预训练清洗 | 稀疏自编码器SAE | 损失屏蔽技术 | 彻底取代机器遗忘 | 解决对抗微调攻击 | 大模型本质安全路径

Podcast cover

最佳拍档

本期播客探讨了 Token 级数据过滤这一最新的 AI 安全研究成果,旨在解决传统后处理安全机制的失效问题。该研究由前 Anthropic 科学家尼尔拉西和前 OpenAI 科学家亚历克拉德福德联合发布,主张在模型预训练阶段就从源头上精准删除那些会催生危险能力的关键知识碎片。相较于传统的文档级数据过滤,Token 级过滤能更精确地识别和处理文档中催生危险能力的特定 Token,通过损失屏蔽或直接移除的方式,实现外科手术式的精准能力塑造。实验结果表明,Token 级过滤能有效削弱模型在特定危险领域的能力,同时最大限度地保留其通用能力,且效果会随着模型规模的扩大而呈指数级提升。

Outlines

Part 1: 背景与现状:传统安全机制的局限

Part 2: 技术原理:Token级过滤的核心创新

Part 3: 健壮性与工程实现:弱监督流水线

Part 4: 容错处理与未来展望

Sign in to continue reading, translating and more.

Open full episode in Podwise