本期播客以十分钟的时间,详细解释了 Deepseek 模型的工作原理,并将其与 OpenAI 的模型进行了对比。播客首先介绍了 OpenAI 模型(GPT 3.5)的三步工作流程:基础模型、监督式微调和基于人类反馈的强化学习。然后,对比介绍了 Deepseek 模型(R1)的三步工作流程,重点突出了 Deepseek 在算力利用率、监督式微调方法和强化学习策略上的差异,例如 Deepseek 采用群体相对策略优化,以更宽松的方式指导模型学习。最后,播客推测 OpenAI 的 O3 mini 模型可能使用了 Deepseek 的数据,但并不违法,因为 Deepseek 采用 MIT 协议开源。
Sign in to continue reading, translating and more.
Continue