29 Sep 2023

LW - High-level interpretability: detecting an AI's objectives by Paul Colognese

The Nonlinear Library

The Nonlinear Library - LW - High-level interpretability: detecting an AI's objectives by Paul Colognese

Preview

How to Get Rich: Every EpisodeNaval