Stanford CS230 | Autumn 2025 | Lecture 10: What’s Going On Inside My Model? | Stanford Online

This lecture explores methods for interpreting neural networks, focusing on both convolutional networks and more modern "frontier" models. The discussion begins with a case study, prompting listeners to brainstorm how to diagnose issues in a large language model experiencing problems with reasoning, safety, and latency. The lecture then dives into convolutional neural networks, detailing techniques like saliency maps, integrated gradients, and occlusion sensitivity to visualize how these models make decisions. A key method involves reverse engineering CNNs using deconvolutional modules to trace activations back to the input space. For frontier models, the lecture touches on analyzing attention patterns and embeddings, as well as training diagnostics like loss curves and scaling laws, to understand model behavior and performance. The importance of data diagnostics, including distribution checks and contamination detection, is also emphasized.

Outlines

Part 1: Introduction, Frontier Model Diagnostics

Part 2: CNN Interpretability, Visualization Techniques

Part 3: Reverse Engineering, Interactive Tools

Part 4: LLMs, Scaling, Evaluation

Sign in to continue reading, translating and more.

Continue

Stanford CS230 | Autumn 2025 | Lecture 10: What’s Going On Inside My Model?

Stanford Online

Part 1: Introduction, Frontier Model Diagnostics

Neural Networks: Convolutional Nets, Transformers, Interpretability, and Modern Analysis

Diagnosing Frontier Model Issues: A Case Study and Solution Buckets

Part 2: CNN Interpretability, Visualization Techniques

Interpreting CNN Decisions: Building Trust with a Zoo's Animal Classifier

Integrated Gradients and Occlusion Sensitivity: Enhancing CNN Interpretability

Real-Time Visualization: Class Activation Maps for CNN Decision Processes

Querying a CNN: Understanding the Model's Representation of a Dog

Dataset Search and Activation Maximization: Interpreting CNN Filters

Part 3: Reverse Engineering, Interactive Tools

Reverse Engineering CNNs: Deconvolutional Modules and Activation Tracing

Practical Visualizations: Patches, Deconvs, and Interactive Deep Visualization

Part 4: LLMs, Scaling, Evaluation

From CNNs to LLMs: Attention, Embeddings, and Relationship Visualization

Training and Scaling Diagnostics: Loss Curves, Telemetry, and Scaling Laws

Evaluating Model Capabilities and Safety: Benchmarks, Error Clusters, and Safety Evals

Data Diagnostics: Distribution Checks, Token Statistics, and Contamination Checks

Stanford CS230 | Autumn 2025 | Lecture 10: What’s Going On Inside My Model?

Stanford Online

Part 1: Introduction, Frontier Model Diagnostics

00:05Neural Networks: Convolutional Nets, Transformers, Interpretability, and Modern Analysis

Neural Networks: Convolutional Nets, Transformers, Interpretability, and Modern Analysis

02:32Diagnosing Frontier Model Issues: A Case Study and Solution Buckets

Diagnosing Frontier Model Issues: A Case Study and Solution Buckets

Part 2: CNN Interpretability, Visualization Techniques

14:51Interpreting CNN Decisions: Building Trust with a Zoo's Animal Classifier

Interpreting CNN Decisions: Building Trust with a Zoo's Animal Classifier

22:58Integrated Gradients and Occlusion Sensitivity: Enhancing CNN Interpretability

Integrated Gradients and Occlusion Sensitivity: Enhancing CNN Interpretability

28:36Real-Time Visualization: Class Activation Maps for CNN Decision Processes

Real-Time Visualization: Class Activation Maps for CNN Decision Processes

35:42Querying a CNN: Understanding the Model's Representation of a Dog

Querying a CNN: Understanding the Model's Representation of a Dog

41:51Dataset Search and Activation Maximization: Interpreting CNN Filters

Dataset Search and Activation Maximization: Interpreting CNN Filters

Part 3: Reverse Engineering, Interactive Tools

48:44Reverse Engineering CNNs: Deconvolutional Modules and Activation Tracing

Reverse Engineering CNNs: Deconvolutional Modules and Activation Tracing

1:05:30Practical Visualizations: Patches, Deconvs, and Interactive Deep Visualization

Practical Visualizations: Patches, Deconvs, and Interactive Deep Visualization

Part 4: LLMs, Scaling, Evaluation

1:12:48From CNNs to LLMs: Attention, Embeddings, and Relationship Visualization

From CNNs to LLMs: Attention, Embeddings, and Relationship Visualization

1:17:20Training and Scaling Diagnostics: Loss Curves, Telemetry, and Scaling Laws

Training and Scaling Diagnostics: Loss Curves, Telemetry, and Scaling Laws

1:25:25Evaluating Model Capabilities and Safety: Benchmarks, Error Clusters, and Safety Evals

Evaluating Model Capabilities and Safety: Benchmarks, Error Clusters, and Safety Evals

1:32:35Data Diagnostics: Distribution Checks, Token Statistics, and Contamination Checks

Data Diagnostics: Distribution Checks, Token Statistics, and Contamination Checks