ZOMI 在本期节目中深入探讨了 Transformer 模型参数的定义与配置,重点分析了 QKV 的维度和 Head 数的配比,并通过 Hugging Face 网站上的文件系统,详细解读了千万级参数模型的配置。她还对比了千问和 DeepSeek 的模型差异,特别是 MOE 架构上的专家数量和共享机制,以及词汇表大小的影响。此外,ZOMI 还分享了模型调优的顺序和避坑指南,强调了模型层数、并行头数和隐藏层的重要性,并建议通过验证集动态监控下游任务,避免盲目堆砌参数。
Outlines
Part 1: 引言与基础概念
Part 2: 模型参数配置与优化
Part 3: 模型结构与调优
Part 4: 总结
Sign in to continue reading, translating and more.
Open full episode in Podwise