如何训练一个大语言模型?分成什么步骤?SFT和DPO有什么区别? | Ph.D. Vlog | Podwise