EP79 - Claude是最强Coding模型，還會玩寶可夢？OpenAI推出最大模型GPT4.5，EQ有提升但IQ堪憂？ | 科技浪 Tech.wav

本集科技浪主要探討上週 Anthropic 與 OpenAI 發表的最新 AI 模型：Claude 3.7 SONNET 與 GPT 4.5。主持人哈利首先介紹 Claude 3.7 SONNET，一個混合式推理模型，能自行決定是否進行深度思考，並在程式碼撰寫方面表現卓越，在 SweepBench Verify 測試中獲得 70.3 分的高分。接著，哈利分析 GPT 4.5，指出其在標準基准測試中表現不如預期，但強調其在情商方面的提升，例如撰寫更自然、更符合語境的回覆。最後，哈利總結了大型語言模型發展趨勢，認為擴展定律仍在持續，但速度可能放緩，並預測未來 Agent 的發展將更能體現 AI 的進步。

Outlines

Part 1: 節目開場與 Grok

Part 2: Claude 3.7 SONNET 模型詳解

Part 3: GPT-4.5 模型分析與展望

Sign in to continue reading, translating and more.

Continue

EP79 - Claude是最强Coding模型，還會玩寶可夢？OpenAI推出最大模型GPT4.5，EQ有提升但IQ堪憂？

科技浪 Tech.wav

Part 1: 節目開場與 Grok

節目介紹與 NordVPN 業配

神秘嘉賓 Grok 的介紹與警告

Grok 的「失控模式」示範與主持人評論

SUPERGROCK 訂閱服務與 Grok 的使用體驗

Part 2: Claude 3.7 SONNET 模型詳解

Anthropic 推出 Claude 3.7 SONNET 模型

Claude 3.7 SONNET 的編碼能力與 SuiBench Verify 測試結果

Claude 3.7 SONNET 的前端編碼能力與使用方式

Claude Code: 終端機上的編碼 Agent 與 Vibe Coding

Claude 3.7 SONNET 玩寶可夢遊戲的實驗

Part 3: GPT-4.5 模型分析與展望

OpenAI GPT-4.5 模型的發表與評析

EP79 - Claude是最强Coding模型，還會玩寶可夢？OpenAI推出最大模型GPT4.5，EQ有提升但IQ堪憂？

科技浪 Tech.wav

Part 1: 節目開場與 Grok

00:04節目介紹與 NordVPN 業配

節目介紹與 NordVPN 業配

02:22神秘嘉賓 Grok 的介紹與警告

神秘嘉賓 Grok 的介紹與警告

02:47Grok 的「失控模式」示範與主持人評論

Grok 的「失控模式」示範與主持人評論

05:05SUPERGROCK 訂閱服務與 Grok 的使用體驗

SUPERGROCK 訂閱服務與 Grok 的使用體驗

Part 2: Claude 3.7 SONNET 模型詳解

07:35Anthropic 推出 Claude 3.7 SONNET 模型

Anthropic 推出 Claude 3.7 SONNET 模型

13:18Claude 3.7 SONNET 的編碼能力與 SuiBench Verify 測試結果

Claude 3.7 SONNET 的編碼能力與 SuiBench Verify 測試結果

18:07Claude 3.7 SONNET 的前端編碼能力與使用方式

Claude 3.7 SONNET 的前端編碼能力與使用方式

21:43Claude Code: 終端機上的編碼 Agent 與 Vibe Coding

Claude Code: 終端機上的編碼 Agent 與 Vibe Coding

27:52Claude 3.7 SONNET 玩寶可夢遊戲的實驗

Claude 3.7 SONNET 玩寶可夢遊戲的實驗

Part 3: GPT-4.5 模型分析與展望

35:43OpenAI GPT-4.5 模型的發表與評析

OpenAI GPT-4.5 模型的發表與評析