【生成式人工智慧與機器學習導論2025】第3講：解剖大型語言模型

本講是課程的第三講，李弘毅老師將深入探討語言模型內部的運作機制。課程內容主要分為三個部分：首先，講解從語言模型的輸入（prompt）到輸出（下一個 token）的完整流程；其次，分析語言模型每一層的輸出可能發生的情況；最後，探討每一層內部的運作方式。老師強調，課程將解剖已訓練好的模型進行觀察，而非訓練新的模型。後半段將進行實作，解剖一個語言模型，驗證其運作原理與課堂講解一致。此外，還會介紹 tokenization、Embedding Table、Layer 的運作方式，以及如何透過 Representation Engineering 操控語言模型，並探討 Large Lens 和 Patch Scope 等分析方法，以窺探語言模型的思考過程。

Outlines

Sign in to continue reading, translating and more.