Stanford CS336 Language Modeling from Scratch | Spring 2025 | Lecture 14: Data 2 | Stanford Online

This lecture focuses on data filtering and deduplication techniques used in training language models. It begins by outlining filtering algorithms, including N-gram models, FastText classifiers, and importance resampling, emphasizing speed and generalization. The lecture then discusses how these filtering methods can be applied to language identification, quality enhancement, and toxicity reduction in datasets. The second half shifts to deduplication, distinguishing between exact and near duplicates, and introduces hashing techniques like Bloom filters and MinHash LSH to efficiently identify and remove duplicate data, ultimately improving training efficiency and preventing memorization in language models.

Outlines

Sign in to continue reading, translating and more.

Continue

Stanford CS336 Language Modeling from Scratch | Spring 2025 | Lecture 14: Data 2

Stanford Online

Introduction to Data Filtering and N-gram Models

CCNET, FastText, and Considerations for Large Model Filtering

Data Selection with Importance Resampling and the Nature of Good Data

Applications of Data Filtering: Language Identification and Quality Filtering

Quality and Toxicity Filtering Techniques

Introduction to Deduplication: Exact and Near Duplicates

Bloom Filters for Exact Deduplication

Analyzing Bloom Filters and Introducing Approximate Set Membership

MinHash, Locality-Sensitive Hashing (LSH), and Probability Sharpening

Summary of Deduplication Techniques and Concluding Remarks

Stanford CS336 Language Modeling from Scratch | Spring 2025 | Lecture 14: Data 2

Stanford Online

00:04Introduction to Data Filtering and N-gram Models

Introduction to Data Filtering and N-gram Models

07:16CCNET, FastText, and Considerations for Large Model Filtering

CCNET, FastText, and Considerations for Large Model Filtering

13:22Data Selection with Importance Resampling and the Nature of Good Data

Data Selection with Importance Resampling and the Nature of Good Data

23:49Applications of Data Filtering: Language Identification and Quality Filtering

Applications of Data Filtering: Language Identification and Quality Filtering

30:20Quality and Toxicity Filtering Techniques

Quality and Toxicity Filtering Techniques

37:01Introduction to Deduplication: Exact and Near Duplicates

Introduction to Deduplication: Exact and Near Duplicates

45:24Bloom Filters for Exact Deduplication

Bloom Filters for Exact Deduplication

52:27Analyzing Bloom Filters and Introducing Approximate Set Membership

Analyzing Bloom Filters and Introducing Approximate Set Membership

1:01:18MinHash, Locality-Sensitive Hashing (LSH), and Probability Sharpening

MinHash, Locality-Sensitive Hashing (LSH), and Probability Sharpening

1:13:37Summary of Deduplication Techniques and Concluding Remarks

Summary of Deduplication Techniques and Concluding Remarks