30 Dec 2024
1h 7m

EP71 - 來自東方的神秘力量?讓矽谷大亂的中國AI公司Deepseek,真的有料嗎?

Podcast cover

科技浪 Tech.wav

本期科技浪播客深入探讨了中国 AI 公司 DeepSeek 及其最新推出的 DeepSeek V3 模型。首先,播客介绍了这家由幻方量化孵化的 AI 公司,强调其独特之处:未进行融资、专注研发而非实际应用、坚持开源原则,致力于真正的技术创新,目标直指通用人工智能(AGI)。接着,播客详细分析了 DeepSeek V3 模型的架构和性能,以及其令人惊叹的低成本,还探讨了在模型架构(如 MLA 和 DeepSeek MOE)、多令牌预测(MTP)和定制训练设施等方面的创新。最后,播客回应了关于 DeepSeek V3 抄袭和数据造假的质疑,并讨论了该模型对美国芯片禁令以及开源 LLM 社区的潜在影响。DeepSeek V3 以极低的成本实现了与 GPT-4 相媲美甚至超越的性能,引发了广泛的关注和争议。

Outlines

Sign in to continue reading, translating and more.

Open full episode in Podwise