大模型的训练原理 梯度下降:从一条直线讲起 | 程序员老王 | Podwise