本集探討了 Transformer 架構的潛在競爭對手,並深入分析了類神經網路架構設計背後的理由。講者首先點出,在作業中將訓練用於產生圖片的 Transformer,並非僅限於大型語言模型。接著,課程聚焦於理解每個網路架構存在的理由,例如 CNN 如何透過減少不必要的參數來避免 overfitting,以及 residual connection 如何解決深層網路訓練的優化問題。進一步,探討了 Self-Attention 如何取代 RNN 和 LSTM,解決輸入向量序列並輸出另一個向量序列的問題。相較於 RNN,Self-Attention 在訓練時更易於平行化,從而更有效地利用 GPU 效能。然而,Self-Attention 在處理長序列時面臨記憶體需求增加的挑戰,因此重新審視了 RNN 的平行化潛力,並介紹了 Linear Attention 作為 RNN 的一種變形,它通過移除 Reflection 機制實現了平行化。最後,討論了 Retention Network 和 Gated Retention 等進階版本,以及 Mamba 和 Delta Net 等架構,這些都反映了業界對更高效、更靈活的序列處理方法的不斷探索。
Sign in to continue reading, translating and more.
Continue