【人工智能】DeepSeek开源推理模型R1 | R1-Zero | 蒸馏小模型 | 绕过监督微调直接强化学习 | 媲美o1 | 顿悟时刻 | GRPO | 奖励设计 | 冷启动 | 再现价格屠夫 | 最佳拍档 | Podwise