本期 AI Odyssey 播客探讨了 DeepSeek R1 模型训练成本远低于其他模型的原因。节目邀请了微软高级研究经理陈天义和国内互联网大厂从事大模型工作的奚辰光作为嘉宾,与主持人 Leo 共同讨论。陈天义解释说,DeepSeek R1 的低成本主要归功于量化技术减少内存消耗和蒸馏技术的应用,后者通过生成高质量数据来引导模型学习,而非学习教师模型的完整分布。这与 OpenAI 等公司在茫茫数据中寻找最佳参数的方式形成对比,DeepSeek R1 则如同追寻信号找到目标,从而显著降低了训练成本。 随后讨论转向数据质量问题,陈天义指出,虽然高质量数据可在网络上获取,但缺乏有效的筛选方法,因此需要像 Scalable AI 这样的公司进行数据清洗。 主持人 Leo 进一步追问,如果其他公司效仿 DeepSeek,其训练成本是否还能更低。陈天义认为,随着更强大的模型(如 O3)出现以及软硬件优化技术的积累,后续厂商的训练成本有望进一步降低,最终可能不会出现赢家通吃的局面,而是形成多家厂商共存的格局。 总而言之,本节目深入分析了 DeepSeek R1 的低成本训练策略,并探讨了其对未来大模型训练成本和行业竞争格局的影响,揭示了数据质量和软硬件优化在降低训练成本中的关键作用。
Sign in to continue reading, translating and more.
Continue