2025-02-23 | SWE-bench 数据集质疑:三成补丁存在答案泄露,编码评估基准待完善 | Hacker News | Podwise