本講是課程的第三講,李弘毅老師將深入探討語言模型內部的運作機制。課程內容主要分為三個部分:首先,講解從語言模型的輸入(prompt)到輸出(下一個 token)的完整流程;其次,分析語言模型每一層的輸出可能發生的情況;最後,探討每一層內部的運作方式。老師強調,課程將解剖已訓練好的模型進行觀察,而非訓練新的模型。後半段將進行實作,解剖一個語言模型,驗證其運作原理與課堂講解一致。此外,還會介紹 tokenization、Embedding Table、Layer 的運作方式,以及如何透過 Representation Engineering 操控語言模型,並探討 Large Lens 和 Patch Scope 等分析方法,以窺探語言模型的思考過程。
Sign in to continue reading, translating and more.
Continue