Open in PodwiseOpen

Episode cover

23 Dec 2024

5m

Anthropic研究员被AI耍了｜新发表论文｜LLM在训练时会「对齐作弊」｜ALIGNMENT FAKING IN LARGE LANGUAGE MODELS

wow

Open in Podwise to generate AI notes

Sign in to process this episode and unlock summaries, transcripts, highlights and translations.

Open in Podwise

Shownotes are not generated by Podwise.

Anthropic研究员被AI耍了｜新发表论文｜LLM在训练时会「对齐作弊」｜ALIGNMENT FAKING IN LARGE LANGUAGE MODELS