本期播客主要讲解了 Transformer 模型及其与大语言模型的关系。首先介绍了 Transformer 模型最初的文本翻译作用,通过编码器将原文编码成高层次的数字矩阵,再由解码器将矩阵转化回人类可读的语言。解码器在解码时是一个词一个词生成翻译的,每次生成 token 都要完整跑一遍 decoder,因此输出比输入的代价更高。随后,播客解释了 OpenAI 如何利用 Transformer 的解码器部分,构建了 GPT-2 模型,并介绍了自监督学习的训练方式。此外,播客还提到了 Google 的 BERT 模型,它采用 encoder-only 架构,擅长理解文章大意和提取信息。
Sign in to continue reading, translating and more.
Continue