13 Jun 2024

LW - [Paper] AI Sandbagging: Language Models can Strategically Underperform on Evaluations by Teun van der Weij

The Nonlinear Library

The Nonlinear Library - LW - [Paper] AI Sandbagging: Language Models can Strategically Underperform on Evaluations by Teun van der Weij

Preview

How to Get Rich: Every EpisodeNaval