本期播客主要探讨了大语言模型中 Token 和 Embedding 的概念及其作用。首先,解释了为何大语言模型处理的是 Token 而非直接处理文字,这是为了提高效率,通过 Tokenizer 将文字转化为数字编号,便于模型处理。随后,深入讲解了 Embedding 的作用,即将 Token 转化为多维向量,以便更好地表达词语之间的语义关系,并解释了 Tokenizer 和 Embedding 的本质不同,Embedding 是通过训练得到的,是大语言模型的一部分。最后,对比了大语言模型的 Embedding 和 RAG 中 Embedding 的区别,强调了二者在模型结构和训练方式上的差异,RAG Embedding 的训练目标是概括文字的含义,使用了对比学习的方法。
Sign in to continue reading, translating and more.
Continue