Trending
Ask AI
Library
You
Sign in
Help
Toggle theme
SIGN IN
Prev
Next
Summary
Mindmap
Transcript
Keywords
Highlights
Shownotes
Trending
Ask AI
Library
You
Enjoy Podwise!
00:00
00:00
1x
10
10
Enjoy Podwise!
Detail
Transcript
微调像DeepSeek R1一样思考的模型 - Unsloth GRPO微调Gemma-3推理模型 | 01Coder | Podwise
Prev
Next
YouTube
20 Mar 2025
11m
微调像DeepSeek R1一样思考的模型 - Unsloth GRPO微调Gemma-3推理模型
01Coder
YouTube
Play
Summary
Mindmap
Transcript
Keywords
Highlights
Shownotes
Sign in to access all AI-generated content
Continue
本期视频教程讲解如何使用 Unsloth GRPO 微调 Gemma 模型以提升其推理能力,类似于 DeepSeek R1。教程分为四个部分:准备环境、准备 GRPO 兼容数据集、定义奖励函数和完成训练及推理测试。重点在于数据集准备和奖励函数定义,后者包含多个函数以根据答案准确性和格式给予不同的奖励或惩罚分数。 最终演示了一个不完整的训练过程(仅 50 步),并用一个例子展示了模型推理结果的格式问题,鼓励观众完成完整训练并分享结果。 教程中提到使用 GSM8K 数据集,并详细解释了奖励函数的设计逻辑,例如对答案中数字的提取和匹配。
Takeaways
Outlines
Q & A
Preview
How to Get Rich: Every Episode
Naval