Vol.18 Aha！半小时听懂DeepSeek推理能力从何而来

本期播客主要讲解 DeepSeek 大模型及其论文 DeepSeek RE，深入剖析其基于规则的强化学习方法（GRPO）如何提升模型推理能力。播客首先解释了语言模型的工作机制，然后对比了监督微调（SFT）和强化学习，详细阐述 DeepSeek 如何通过奖励函数（基于准确性和格式规范）和 GRPO 算法，引导模型生成更稳定、更准确的答案，并最终实现更长的推理链。最后，播客还简要介绍了知识蒸馏的概念，以及 DeepSeek 如何利用这一技术提升小模型的性能。通过类比人类学习过程，播客使复杂的算法概念易于理解。

Outlines

Sign in to continue reading, translating and more.