本集探討了大型語言模型中的深度思考能力,講師介紹了一系列具備深度思考行為的模型,如 ChatGPT 的 O 系列和 DeepSeek 的 R 系列。深度思考的特點是模型在給出答案前會呈現一個較長的思考過程,並以"Think"和"/Think"標記,方便介面呈現。講師提到這種推理行為是測試時計算的一種形式,類似於 AlphaGo 中的 Monte Carlo Tree Search。為了打造具備深度思考能力的語言模型,講師歸納了四種方法:改良 Chain-of-Thought、直接給予模型推理工作流程、模仿學習以及以結果為導向的強化學習。講師以 DeepSeek-R1 為例,詳細說明了如何透過強化學習訓練模型,並強調了四種方法並非互斥,而是可以結合使用以提升模型能力。最後,講師預告下集將討論推論模型面臨的挑戰,以及如何避免模型進行不必要的推理。
Sign in to continue reading, translating and more.
Continue