18 Apr 2024

AF - Discriminating Behaviorally Identical Classifiers: a model problem for applying interpretability to scalable oversight by Sam Marks

The Nonlinear Library

The Nonlinear Library - AF - Discriminating Behaviorally Identical Classifiers: a model problem for applying interpretability to scalable oversight by Sam Marks

Continue

Preview

How to Get Rich: Every EpisodeNaval