EP 67. 解析DeepSeek R1技术创新与生态影响：强化学习，Long CoT，数据，Agent与开源生态

本期 OnBoard 播客讨论了 DeepSeek 近期发布的开源推理模型 DeepSeek R1。节目邀请了来自中美的一线研究员和从业者，从推理、思维链（CoT）、基础设施和开源等多个角度，对 DeepSeek R1 的创新、强化学习方法、未解决问题和未来发展方向进行了深入探讨。嘉宾们分享了 R1 在不同任务上的惊艳表现，特别是其在中文处理和推理方面的能力，并分析了其低成本训练和推理的优势。例如，嘉宾提到 TinyZero 项目仅用 30 美元的成本就复现了 R1 的部分能力，这凸显了 R1 模型的效率和开源的价值，为 AI 领域的研究和应用带来了新的启示。

Outlines

Part 1: DeepSeek R1 引言

Part 2: 模型能力、训练方法及强化学习

Part 3: 模型架构、开源策略及未来展望

Sign in to continue reading, translating and more.

Continue

OnBoard!

Part 1: DeepSeek R1 引言

节目开场和 DeepSeek R1 的介绍

嘉宾自我介绍及对 DeepSeek R1 初步印象

Part 2: 模型能力、训练方法及强化学习

DeepSeek R1 模型能力的讨论：数据、强化学习和涌现能力

TinyZero 项目及强化学习的探索

强化学习在大型语言模型中的应用及挑战

R1-Zero, R1 及成本效益分析

SFT 在 R1 训练中的作用及未来展望

Reward Model, 模拟器和数据生成

Part 3: 模型架构、开源策略及未来展望

MoE 模型与 Dense 模型的比较及开源策略

数据来源、开源策略及对 OpenAI 的影响

开源模型与闭源模型的未来发展及 Lama 生态的影响

开源推理模型的未来发展方向及对 Llama 生态的影响

开发者选择模型的考量、未来展望及 AGI 的讨论

EP 67. 解析DeepSeek R1技术创新与生态影响：强化学习，Long CoT，数据，Agent与开源生态

OnBoard!

Part 1: DeepSeek R1 引言

00:03节目开场和 DeepSeek R1 的介绍

节目开场和 DeepSeek R1 的介绍

03:06嘉宾自我介绍及对 DeepSeek R1 初步印象

嘉宾自我介绍及对 DeepSeek R1 初步印象

Part 2: 模型能力、训练方法及强化学习

10:15DeepSeek R1 模型能力的讨论：数据、强化学习和涌现能力

DeepSeek R1 模型能力的讨论：数据、强化学习和涌现能力

21:14TinyZero 项目及强化学习的探索

TinyZero 项目及强化学习的探索

36:01强化学习在大型语言模型中的应用及挑战

强化学习在大型语言模型中的应用及挑战

49:05R1-Zero, R1 及成本效益分析

R1-Zero, R1 及成本效益分析

1:00:11SFT 在 R1 训练中的作用及未来展望

SFT 在 R1 训练中的作用及未来展望

1:17:24Reward Model, 模拟器和数据生成

Reward Model, 模拟器和数据生成

Part 3: 模型架构、开源策略及未来展望

1:36:42MoE 模型与 Dense 模型的比较及开源策略

MoE 模型与 Dense 模型的比较及开源策略

1:53:02数据来源、开源策略及对 OpenAI 的影响

数据来源、开源策略及对 OpenAI 的影响

2:00:12开源模型与闭源模型的未来发展及 Lama 生态的影响

开源模型与闭源模型的未来发展及 Lama 生态的影响

2:13:31开源推理模型的未来发展方向及对 Llama 生态的影响

开源推理模型的未来发展方向及对 Llama 生态的影响

2:27:36开发者选择模型的考量、未来展望及 AGI 的讨论

开发者选择模型的考量、未来展望及 AGI 的讨论