本期科技浪播客深入探讨了中国 AI 公司 DeepSeek 及其最新推出的 DeepSeek V3 模型。首先,播客介绍了这家由幻方量化孵化的 AI 公司,强调其独特之处:未进行融资、专注研发而非实际应用、坚持开源原则,致力于真正的技术创新,目标直指通用人工智能(AGI)。接着,播客详细分析了 DeepSeek V3 模型的架构和性能,以及其令人惊叹的低成本,还探讨了在模型架构(如 MLA 和 DeepSeek MOE)、多令牌预测(MTP)和定制训练设施等方面的创新。最后,播客回应了关于 DeepSeek V3 抄袭和数据造假的质疑,并讨论了该模型对美国芯片禁令以及开源 LLM 社区的潜在影响。DeepSeek V3 以极低的成本实现了与 GPT-4 相媲美甚至超越的性能,引发了广泛的关注和争议。
Sign in to continue reading, translating and more.
Continue