本期晚点聊访谈了西北大学 MLL Lab 博士生王子涵,主要讨论了大模型开源的现状和不同层次。访谈首先围绕 DeepSeek 的开源周展开,分析了其开源项目 FlashMLA 对不同开发者的作用,以及算子优化的概念。随后,讨论扩展到开源模型的构成要素,包括技术报告、模型权重、推理框架、训练框架和数据集,并比较了不同公司(如 DeepSeek、Allen AI、EleutherAI)的开源策略差异。最后,王子涵分享了其个人作为开源模型滥用受害者的经历,提醒了开源技术潜在的风险。
Sign in to continue reading, translating and more.
Continue