YouTube13 Jan 2025
11m

【人工智能】为什么RLHF不能带给大模型真的强化学习 | 经典RL | 人类偏好奖励 | 模型自主目标 | CoT | PRM | 多智能体工作流 | 为什么RLHF很重要 | 未来的发展方向

Podcast cover

最佳拍档

Open in Podwise to generate AI notes

Sign in to process this episode and unlock summaries, transcripts, highlights and translations.

Open in Podwise

Shownotes are not generated by Podwise.

【人工智能】为什么RLHF不能带给大模型真的强化学习 | 经典RL | 人类偏好奖励 | 模型自主目标 | CoT | PRM | 多智能体工作流 | 为什么RLHF很重要 | 未来的发展方向