【人工智能】大模型长上下文的谎言 | 姚顺雨 | CL-BENCH | 揭秘上下文税 | 大模型Agent落地卡点 | 检索不等于应用 | GPT-5.1 | 混元团队论文 | 显式记忆架构 | 最佳拍档

本期播客聚焦腾讯 AI 科学家姚顺雨及其团队发布的论文《上下文学习基准测试》，探讨当前大模型在上下文处理能力上的缺失这一行业痛点。节目指出，现有评测基准无法真实反映大模型在实际应用中的上下文处理水平，因为传统评测侧重于大海捞针式的检索或简单的长文本理解，而真实场景需要模型理解目标价值并精准应用。CL-BENCH 旨在精准测试模型从复杂上下文中学习新知识并应用的能力，通过构建复杂的上下文和严格的评分体系，揭示即使是最强的大模型在真实世界的上下文学习任务中也表现不佳。节目还分析了当前大模型在长上下文技术路线上的局限性，并提出了构建强上下文依赖的训练数据、采用课程学习方法等工程上的发展方向。

Outlines

Part 1: 背景、理念与核心痛点

Part 2: CL-BENCH 评测体系与构建

Part 3: 现状分析与技术反思

Part 4: 应对策略与未来方向

Sign in to continue reading, translating and more.

Open full episode in Podwise

【人工智能】大模型长上下文的谎言 | 姚顺雨 | CL-BENCH | 揭秘上下文税 | 大模型Agent落地卡点 | 检索不等于应用 | GPT-5.1 | 混元团队论文 | 显式记忆架构

最佳拍档

Part 1: 背景、理念与核心痛点

腾讯姚顺雨加盟与 AI 研发新理念：问题定义与评估的重要性

大模型长上下文处理困境：遗忘与真实应用脱节

Part 2: CL-BENCH 评测体系与构建

CL-BENCH：弥合评测基准与真实 Agent 应用场景的差距

CL-BENCH 的构建：模拟真实世界复杂场景的上下文学习

CL-BENCH 评测的真实性保障与严格评分体系

Part 3: 现状分析与技术反思

CL-BENCH 评测结果：大模型上下文学习能力不足

大模型长上下文技术路线：阅读机器而非思考机器

长上下文技术的三波进展：效率、准确性与检索

上下文误用率高企：大模型缺乏知识应用能力

Part 4: 应对策略与未来方向

绕道而行：学术界缓解上下文学习困境的策略

工程发展方向：训练模型获得上下文学习能力

【人工智能】大模型长上下文的谎言 | 姚顺雨 | CL-BENCH | 揭秘上下文税 | 大模型Agent落地卡点 | 检索不等于应用 | GPT-5.1 | 混元团队论文 | 显式记忆架构

最佳拍档

Part 1: 背景、理念与核心痛点

00:00腾讯姚顺雨加盟与 AI 研发新理念：问题定义与评估的重要性

腾讯姚顺雨加盟与 AI 研发新理念：问题定义与评估的重要性

01:25大模型长上下文处理困境：遗忘与真实应用脱节

大模型长上下文处理困境：遗忘与真实应用脱节

Part 2: CL-BENCH 评测体系与构建

02:41CL-BENCH：弥合评测基准与真实 Agent 应用场景的差距

CL-BENCH：弥合评测基准与真实 Agent 应用场景的差距

05:24CL-BENCH 的构建：模拟真实世界复杂场景的上下文学习

CL-BENCH 的构建：模拟真实世界复杂场景的上下文学习

07:51CL-BENCH 评测的真实性保障与严格评分体系

CL-BENCH 评测的真实性保障与严格评分体系

Part 3: 现状分析与技术反思

10:05CL-BENCH 评测结果：大模型上下文学习能力不足

CL-BENCH 评测结果：大模型上下文学习能力不足

12:23大模型长上下文技术路线：阅读机器而非思考机器

大模型长上下文技术路线：阅读机器而非思考机器

13:41长上下文技术的三波进展：效率、准确性与检索

长上下文技术的三波进展：效率、准确性与检索

16:32上下文误用率高企：大模型缺乏知识应用能力

上下文误用率高企：大模型缺乏知识应用能力

Part 4: 应对策略与未来方向

18:34绕道而行：学术界缓解上下文学习困境的策略

绕道而行：学术界缓解上下文学习困境的策略

20:17工程发展方向：训练模型获得上下文学习能力

工程发展方向：训练模型获得上下文学习能力