【人工智能】Token级数据过滤 | 尼尔拉西 | 亚历克拉德福德 | 预训练清洗 | 稀疏自编码器SAE | 损失屏蔽技术 | 彻底取代机器遗忘 | 解决对抗微调攻击 | 大模型本质安全路径 | 最佳拍档

本期播客探讨了 Token 级数据过滤这一最新的 AI 安全研究成果，旨在解决传统后处理安全机制的失效问题。该研究由前 Anthropic 科学家尼尔拉西和前 OpenAI 科学家亚历克拉德福德联合发布，主张在模型预训练阶段就从源头上精准删除那些会催生危险能力的关键知识碎片。相较于传统的文档级数据过滤，Token 级过滤能更精确地识别和处理文档中催生危险能力的特定 Token，通过损失屏蔽或直接移除的方式，实现外科手术式的精准能力塑造。实验结果表明，Token 级过滤能有效削弱模型在特定危险领域的能力，同时最大限度地保留其通用能力，且效果会随着模型规模的扩大而呈指数级提升。

Outlines

Part 1: 背景与现状：传统安全机制的局限

Part 2: 技术原理：Token级过滤的核心创新

Part 3: 健壮性与工程实现：弱监督流水线

Part 4: 容错处理与未来展望

Sign in to continue reading, translating and more.

Open full episode in Podwise

【人工智能】Token级数据过滤 | 尼尔拉西 | 亚历克拉德福德 | 预训练清洗 | 稀疏自编码器SAE | 损失屏蔽技术 | 彻底取代机器遗忘 | 解决对抗微调攻击 | 大模型本质安全路径

最佳拍档

Part 1: 背景与现状：传统安全机制的局限

Token 级数据过滤：AI 安全新策略，精准切除模型危险能力

后处理安全机制失效原因：大模型知识存储的分布式特性

文档级数据过滤的局限性：误伤良性数据与遗漏危险 Token

Part 2: 技术原理：Token级过滤的核心创新

Token 级数据过滤：精准识别并处理文档中催生危险能力的特定 Token

Token 级过滤实验：精准切割医学知识，生物学性能几乎无损

相对缩放法则：Token 级过滤效果随模型规模扩大呈指数级提升

知识学习负力效应：Token 级过滤切断危险知识逻辑链条

Part 3: 健壮性与工程实现：弱监督流水线

对抗性微调实验：Token 级过滤健壮性远超 RMU 技术

弱监督流水线：低成本高效识别危险 Token

双向语言模型分类器：快速准确判断 Token 危险性

粗筛加精筛：文档级与 Token 级分类器组合提升过滤效率

Part 4: 容错处理与未来展望

标签噪声容错性：Token 级过滤的低误差敏感、高误差饱和特性

激进过滤与知识恢复：应对标签噪声的解决方案

AI 安全新方向：数据基因层面的编辑与能力塑造

【人工智能】Token级数据过滤 | 尼尔拉西 | 亚历克拉德福德 | 预训练清洗 | 稀疏自编码器SAE | 损失屏蔽技术 | 彻底取代机器遗忘 | 解决对抗微调攻击 | 大模型本质安全路径

最佳拍档

Part 1: 背景与现状：传统安全机制的局限

00:00Token 级数据过滤：AI 安全新策略，精准切除模型危险能力

Token 级数据过滤：AI 安全新策略，精准切除模型危险能力

00:58后处理安全机制失效原因：大模型知识存储的分布式特性

后处理安全机制失效原因：大模型知识存储的分布式特性

02:47文档级数据过滤的局限性：误伤良性数据与遗漏危险 Token

文档级数据过滤的局限性：误伤良性数据与遗漏危险 Token

Part 2: 技术原理：Token级过滤的核心创新

05:18Token 级数据过滤：精准识别并处理文档中催生危险能力的特定 Token

Token 级数据过滤：精准识别并处理文档中催生危险能力的特定 Token

07:16Token 级过滤实验：精准切割医学知识，生物学性能几乎无损

Token 级过滤实验：精准切割医学知识，生物学性能几乎无损

08:46相对缩放法则：Token 级过滤效果随模型规模扩大呈指数级提升

相对缩放法则：Token 级过滤效果随模型规模扩大呈指数级提升

10:38知识学习负力效应：Token 级过滤切断危险知识逻辑链条

知识学习负力效应：Token 级过滤切断危险知识逻辑链条

Part 3: 健壮性与工程实现：弱监督流水线

12:56对抗性微调实验：Token 级过滤健壮性远超 RMU 技术

对抗性微调实验：Token 级过滤健壮性远超 RMU 技术

14:34弱监督流水线：低成本高效识别危险 Token

弱监督流水线：低成本高效识别危险 Token

16:40双向语言模型分类器：快速准确判断 Token 危险性

双向语言模型分类器：快速准确判断 Token 危险性

18:08粗筛加精筛：文档级与 Token 级分类器组合提升过滤效率

粗筛加精筛：文档级与 Token 级分类器组合提升过滤效率

Part 4: 容错处理与未来展望

19:03标签噪声容错性：Token 级过滤的低误差敏感、高误差饱和特性

标签噪声容错性：Token 级过滤的低误差敏感、高误差饱和特性

20:26激进过滤与知识恢复：应对标签噪声的解决方案

激进过滤与知识恢复：应对标签噪声的解决方案

23:08AI 安全新方向：数据基因层面的编辑与能力塑造

AI 安全新方向：数据基因层面的编辑与能力塑造