本集探討了評估大型語言模型推理能力的挑戰與方法。目前常見的評估方式,如數學問題解答,可能存在模型記憶題目的問題,為了解決此問題,研究者會修改題目中的符號或數字,觀察模型正確率的變化。然而,即使是修改後的題目,也無法完全排除模型已學習到類似題目的可能性。針對此問題,ARK AGI 提出了一種基於圖形的智力測驗,試圖避免模型依賴已知的網絡知識,但這種方法也可能被針對性地訓練模型來破解。主持人提到 Chatbot Arena,一個由全球使用者提問並評估模型回答的平台,但即使是這種方法,也可能受到模型風格(如表情符號使用、回答長度)的影響。因此,主持人引用 Goodhart's law 指出,一旦評量指標成為目標,它就不再是一個好的指標,並強調過度關注評分系統可能會扭曲模型的努力方向。
Sign in to continue reading, translating and more.
Continue