20 Mar 2025

微调像DeepSeek R1一样思考的模型 - Unsloth GRPO微调Gemma-3推理模型

01Coder

本期视频教程讲解如何使用 Unsloth GRPO 微调 Gemma 模型以提升其推理能力，类似于 DeepSeek R1。教程分为四个部分：准备环境、准备 GRPO 兼容数据集、定义奖励函数和完成训练及推理测试。重点在于数据集准备和奖励函数定义，后者包含多个函数以根据答案准确性和格式给予不同的奖励或惩罚分数。最终演示了一个不完整的训练过程（仅 50 步），并用一个例子展示了模型推理结果的格式问题，鼓励观众完成完整训练并分享结果。教程中提到使用 GSM8K 数据集，并详细解释了奖励函数的设计逻辑，例如对答案中数字的提取和匹配。

Outlines

Continue

Preview

How to Get Rich: Every EpisodeNaval

微调像DeepSeek R1一样思考的模型 - Unsloth GRPO微调Gemma-3推理模型

01Coder

使用 Unsloth GRPO 微调 Gemma 模型进行推理

准备 GRPO 兼容的数据集

定义奖励函数

模型训练与推理及结果保存

微调像DeepSeek R1一样思考的模型 - Unsloth GRPO微调Gemma-3推理模型

01Coder

00:01使用 Unsloth GRPO 微调 Gemma 模型进行推理

使用 Unsloth GRPO 微调 Gemma 模型进行推理

03:26准备 GRPO 兼容的数据集

准备 GRPO 兼容的数据集

05:53定义奖励函数

定义奖励函数

09:14模型训练与推理及结果保存

模型训练与推理及结果保存