Stanford CME295 Transformers & LLMs | Autumn 2025 | Lecture 2 - Transformer-Based Models & Tricks | Stanford Online

The lecture provides an overview of self-attention mechanisms, transformer architecture, and position embeddings. It begins with a recap of self-attention, emphasizing queries, keys, and values, and the transformer's encoder-decoder structure for machine translation. The discussion covers learned versus static position embeddings, detailing the sine and cosine formulation for representing token positions and their relative distances. Further topics include layer normalization, RMS norm, and variations in attention mechanisms like local and global attention. The lecture also explores multi-query and group query attention, and the BERT model, including masked language modeling and next sentence prediction tasks.

Outlines

Part 1: Logistics, Recap

Part 2: Transformer Evolution, Embeddings, Norms

Part 3: Model Architectures, BERT

Part 4: Practical Applications, Limitations

Sign in to continue reading, translating and more.

Continue

Stanford CME295 Transformers & LLMs | Autumn 2025 | Lecture 2 - Transformer-Based Models & Tricks

Stanford Online

Part 1: Logistics, Recap

Logistics Update: Audio Improvements and Potential Final Exam Date Change

Recap of Lecture 1: Self-Attention, Queries, Keys, Values, and the Transformer Architecture

Part 2: Transformer Evolution, Embeddings, Norms

Transformer Architecture's Continued Relevance and the Importance of Position Embedding

Evolving Position Embeddings: From Input Addition to Rotary Position Embeddings (ROPE)

Layer Normalization Evolution: From Post-Norm to Pre-Norm and RMS Norm

Attention Variations: Local Attention, Shared Projection Matrices, and Multi-Query Attention

Part 3: Model Architectures, BERT

Transformer Model Landscape: Encoder-Decoder, Encoder-Only, and Decoder-Only Architectures

BERT: Bidirectional Encoder Representations from Transformers for Classification Tasks

BERT's Architecture: Tokenization, Input Embeddings, and Fine-Tuning for Sentiment Extraction

Part 4: Practical Applications, Limitations

BERT in Action: Sentiment Extraction with a Teddy Bear Example

Limitations of BERT and Improvements with DistilBERT and RoBERTa

Stanford CME295 Transformers & LLMs | Autumn 2025 | Lecture 2 - Transformer-Based Models & Tricks

Stanford Online

Part 1: Logistics, Recap

00:05Logistics Update: Audio Improvements and Potential Final Exam Date Change

Logistics Update: Audio Improvements and Potential Final Exam Date Change

01:15Recap of Lecture 1: Self-Attention, Queries, Keys, Values, and the Transformer Architecture

Recap of Lecture 1: Self-Attention, Queries, Keys, Values, and the Transformer Architecture

Part 2: Transformer Evolution, Embeddings, Norms

09:31Transformer Architecture's Continued Relevance and the Importance of Position Embedding

Transformer Architecture's Continued Relevance and the Importance of Position Embedding

25:30Evolving Position Embeddings: From Input Addition to Rotary Position Embeddings (ROPE)

Evolving Position Embeddings: From Input Addition to Rotary Position Embeddings (ROPE)

42:50Layer Normalization Evolution: From Post-Norm to Pre-Norm and RMS Norm

Layer Normalization Evolution: From Post-Norm to Pre-Norm and RMS Norm

50:30Attention Variations: Local Attention, Shared Projection Matrices, and Multi-Query Attention

Attention Variations: Local Attention, Shared Projection Matrices, and Multi-Query Attention

Part 3: Model Architectures, BERT

1:02:43Transformer Model Landscape: Encoder-Decoder, Encoder-Only, and Decoder-Only Architectures

Transformer Model Landscape: Encoder-Decoder, Encoder-Only, and Decoder-Only Architectures

1:11:34BERT: Bidirectional Encoder Representations from Transformers for Classification Tasks

BERT: Bidirectional Encoder Representations from Transformers for Classification Tasks

1:27:00BERT's Architecture: Tokenization, Input Embeddings, and Fine-Tuning for Sentiment Extraction

BERT's Architecture: Tokenization, Input Embeddings, and Fine-Tuning for Sentiment Extraction

Part 4: Practical Applications, Limitations

1:35:00BERT in Action: Sentiment Extraction with a Teddy Bear Example

BERT in Action: Sentiment Extraction with a Teddy Bear Example

1:42:03Limitations of BERT and Improvements with DistilBERT and RoBERTa

Limitations of BERT and Improvements with DistilBERT and RoBERTa