29 Jun 2026
34m

#604.OpenAI Noam Brown:模型评估方式,正在错过 AI 真正的能力上限

Podcast cover

跨国串门儿计划

AI 模型评估体系正面临挑战,现有的基准测试未能将 “测试时计算量” 纳入考量,导致性能对比失真。OpenAI 研究科学家 Noam Brown 指出,模型能力是投入算力与时间的函数,在不同推理预算下表现差异巨大,而行业沿用的静态评估框架已成为一种亟待打破的 “糟糕均衡”。研究者应将性能绘制为推理预算的函数,而非依赖单一基准分数。尽管 AI 正在加速科学发现,但由于模型在复杂任务中仍受限于推理时间,尚未出现瞬间的智能爆炸。行业需正视推理成本与效率的权衡,建立更具实效的评估标准,以真实反映模型在不同算力投入下的能力上限。

Outlines

Sign in to continue reading, translating and more.

Open full episode in Podwise