26 Aug 2023

LW - Red-teaming language models via activation engineering by Nina Rimsky

The Nonlinear Library

The Nonlinear Library - LW - Red-teaming language models via activation engineering by Nina Rimsky

Preview

How to Get Rich: Every EpisodeNaval