09 Nov 2023

LW - Polysemantic Attention Head in a 4-Layer Transformer by Jett

The Nonlinear Library

The Nonlinear Library - LW - Polysemantic Attention Head in a 4-Layer Transformer by Jett

Preview

How to Get Rich: Every EpisodeNaval