本集講述大型語言模型(LLM)的內部運作機制,深入探討 Transformer 架構中單個神經元、神經元層級以及不同層級間互動的機制。講者首先介紹分析神經元功能的方法,並以「川普神經元」為例說明相關性與因果關係的區別。接著,講者闡述如何通過分析神經元層級的表徵向量(representation)來識別特定功能(例如拒絕請求),並說明如何利用 Sparse Autoencoder 技術自動找出功能向量。最後,講者介紹了 Logic Lens 和 Patchscope 等技術,展示如何讓語言模型「說出」其內部運作過程,並以實際案例說明這些技術如何應用於理解和改進 LLM 的推理能力。
Sign in to continue reading, translating and more.
Continue