OpenAI 12天「第2天」| 能让 o1-mini 超越 o1 的强化微调 Reinforcement Fine-Tuning | 回到Axton | 回到Axton | Podwise