本播客探讨了在 2024 年 GPT 落地前,工业界训练相关性 BERT 模型的新策略。该方法包括预训练、后预训练、微调和蒸馏四个步骤。在这次讨论中,我们特别关注后预训练和蒸馏,因为这两个步骤的公开资料相对较少且与实际工业应用的差距较大。后预训练通过分析大量用户点击数据(例如 10 亿条样本),自动生成训练数据,从而显著提升模型的准确性。而蒸馏则是先训练大型模型(如 48 层 BERT),再将其知识迁移到较小的模型(如 4 层 BERT),以提高线上推理效率,同时保持高精度,AUC 几乎未受影响。我们的终极目标是建立一个高效且准确的相关性模型,以优化搜索引擎的排序功能。
Sign in to continue reading, translating and more.
Continue