本集節目專訪台大資工系教授徐宏民,深入探討中國 AI 公司 DeepSeek 及其大型語言模型的突破性進展。節目首先介紹了深度學習和大型語言模型的發展歷程,接著分析 DeepSeek 以相對較低的成本和數據量,達到與國際巨頭公司相近的模型效能的原因,例如採用混合專家模型和高效能的訓練方法。 最後,討論了 DeepSeek 的影響,包括其對邊緣運算的推動,以及對台灣 AI 產業發展的啟示,強調人才培養和商業模式創新的重要性,並指出 DeepSeek 的成功並非偶然,而是長期投入和人才積累的結果。 教授更進一步說明了模型蒸餾技術 (Distillation) 在降低模型大小和成本方面的應用,以及其在不同領域 (例如自動駕駛和機器人) 的潛在應用。
Sign in to continue reading, translating and more.
Continue