數創實驗室 - AI時代的學習指南 - EP37 | 深談Deepseek (中):R1推理模型、強化學習、模型蒸餾、UC Berkeley PhD用小模型復現R1
Sign in to continue reading, translating and more.