Stanford CS336 Language Modeling from Scratch | Spring 2025 | Lecture 14: Data 2 | Stanford Online

This lecture focuses on data filtering and deduplication techniques used in training language models. It begins by outlining filtering algorithms, including N-gram models, FastText classifiers, and importance resampling, emphasizing speed and generalization. The lecture then discusses how these filtering methods can be applied to language identification, quality enhancement, and toxicity reduction in datasets. The second half shifts to deduplication, distinguishing between exact and near duplicates, and introduces hashing techniques like Bloom filters and MinHash LSH to efficiently identify and remove duplicate data, ultimately improving training efficiency and preventing memorization in language models.

Outlines

Part 1: Data Filtering Basics

Part 2: Applications of Data Filtering

Part 3: Deduplication Techniques

Part 4: Summary and Conclusion

Sign in to continue reading, translating and more.

Open full episode in Podwise

Stanford CS336 Language Modeling from Scratch | Spring 2025 | Lecture 14: Data 2

Stanford Online

Part 1: Data Filtering Basics

Introduction to Data Filtering and N-gram Models

CCNET, FastText, and Considerations for Large Model Filtering

Data Selection with Importance Resampling and the Nature of Good Data

Part 2: Applications of Data Filtering

Applications of Data Filtering: Language Identification and Quality Filtering

Quality and Toxicity Filtering Techniques

Part 3: Deduplication Techniques

Introduction to Deduplication: Exact and Near Duplicates

Bloom Filters for Exact Deduplication

Analyzing Bloom Filters and Introducing Approximate Set Membership

MinHash, Locality-Sensitive Hashing (LSH), and Probability Sharpening

Part 4: Summary and Conclusion

Summary of Deduplication Techniques and Concluding Remarks

Stanford CS336 Language Modeling from Scratch | Spring 2025 | Lecture 14: Data 2

Stanford Online

Part 1: Data Filtering Basics

00:04Introduction to Data Filtering and N-gram Models

Introduction to Data Filtering and N-gram Models

07:16CCNET, FastText, and Considerations for Large Model Filtering

CCNET, FastText, and Considerations for Large Model Filtering

13:22Data Selection with Importance Resampling and the Nature of Good Data

Data Selection with Importance Resampling and the Nature of Good Data

Part 2: Applications of Data Filtering

23:49Applications of Data Filtering: Language Identification and Quality Filtering

Applications of Data Filtering: Language Identification and Quality Filtering

30:20Quality and Toxicity Filtering Techniques

Quality and Toxicity Filtering Techniques

Part 3: Deduplication Techniques

37:01Introduction to Deduplication: Exact and Near Duplicates

Introduction to Deduplication: Exact and Near Duplicates

45:24Bloom Filters for Exact Deduplication

Bloom Filters for Exact Deduplication

52:27Analyzing Bloom Filters and Introducing Approximate Set Membership

Analyzing Bloom Filters and Introducing Approximate Set Membership

1:01:18MinHash, Locality-Sensitive Hashing (LSH), and Probability Sharpening

MinHash, Locality-Sensitive Hashing (LSH), and Probability Sharpening

Part 4: Summary and Conclusion

1:13:37Summary of Deduplication Techniques and Concluding Remarks

Summary of Deduplication Techniques and Concluding Remarks