【人工智能】AI对齐到底有多难 | Anthropic四名科学家主题沙龙 | 对齐的概念 | 价值观植入 | 超级对齐 | 可解释性研究 | 善意特征 | 思维链 | 欺骗性行为 | 平庸之恶 | 最佳拍档 | Podwise