本集探討了預訓練對齊(pre-trained alignment)範式的強大之處與局限性。首先,講解了語言模型訓練的三個階段:預訓練、監督式微調(SFT)和基於人類回饋的強化學習(RLHF),並將 SFT 和 RLHF 定義為對齊階段,旨在使機器的輸出與人類價值觀對齊。儘管對齊後的模型在基準測試中表現顯著提升,但實際上對齊步驟所使用的資料量遠少於預訓練,例如 Llama 2 的 SFT 僅使用了兩萬多筆資料,而 LIMA 更只用了一千筆精選資料。進而探討了如何選擇高品質的對齊資料,例如弱智吧的資料集,以及知識蒸餾(Knowledge Distillation)的概念,即讓模型向更強大的模型(如 ChatGPT)學習。更深入地分析了對齊前後模型行為的差異,發現對齊主要改變了模型書寫風格和某些詞彙的輸出機率,因此對齊的影響可能存在極限,難以教會模型全新的知識,而預訓練階段的多樣化資料是成功的關鍵。最後,討論了預訓練可能留下的後遺症,即使經過對齊,模型內部的某些不當資訊仍然難以完全抹除,揭示了在表面行為改變下,模型內在知識的複雜性。
Sign in to continue reading, translating and more.
Continue