17 Jun 2024

AF - Sycophancy to subterfuge: Investigating reward tampering in large language models by Evan Hubinger

The Nonlinear Library

The Nonlinear Library - AF - Sycophancy to subterfuge: Investigating reward tampering in large language models by Evan Hubinger

Preview

How to Get Rich: Every EpisodeNaval