本集科技浪主要探討上週 Anthropic 與 OpenAI 發表的最新 AI 模型:Claude 3.7 SONNET 與 GPT 4.5。主持人哈利首先介紹 Claude 3.7 SONNET,一個混合式推理模型,能自行決定是否進行深度思考,並在程式碼撰寫方面表現卓越,在 SweepBench Verify 測試中獲得 70.3 分的高分。接著,哈利分析 GPT 4.5,指出其在標準基准測試中表現不如預期,但強調其在情商方面的提升,例如撰寫更自然、更符合語境的回覆。最後,哈利總結了大型語言模型發展趨勢,認為擴展定律仍在持續,但速度可能放緩,並預測未來 Agent 的發展將更能體現 AI 的進步。
Sign in to continue reading, translating and more.
Continue