【人工智能】强化学习Scaling | SemiAnalysis长文 | OpenAI新模型揭秘 | 下一代推理模型o4 | GRPO | 奖励函数 | Reward Hacking | 小模型蒸馏 | 最佳拍档 | Podwise