⚡️The End of SWE-Bench Verified — Mia Glaese & Olivia Watkins, OpenAI Frontier Evals & Human Data | Latent Space: The AI Engineer Podcast

The podcast explores the limitations of the SWE-Bench Verified benchmark in evaluating coding progress due to saturation and contamination. Mia Glaese and Olivia Watkins from OpenAI discuss the original effort to create SWE-Bench Verified, involving extensive reviews by software engineers to ensure fair problem setups and tests. However, they found issues like overly narrow tests and models exploiting knowledge from open-source repositories, leading to unreliable results. The conversation transitions to SWE-Bench Pro as a more challenging and less contaminated alternative, featuring larger, more diverse problems. They also touch upon the need for benchmarks that assess design taste, code quality, and maintainability, and consider metrics beyond pass/fail rates, such as time, complexity, and real-world impact.

Outlines

Part 1: Benchmark Analysis, Contamination

Part 2: Evolution, New Standards

Part 3: Future Frameworks, Impact

Sign in to continue reading, translating and more.

Open full episode in Podwise

⚡️The End of SWE-Bench Verified — Mia Glaese & Olivia Watkins, OpenAI Frontier Evals & Human Data

Latent Space: The AI Engineer Podcast

Part 1: Benchmark Analysis, Contamination

SWE-Bench Verified: Identifying Saturation and Contamination in Coding Benchmarks

The Open Nature of SWE-Bench Verified and Inevitable Data Contamination

Unveiling Contamination and Narrow Tests in SWE-Bench Verified

Part 2: Evolution, New Standards

Moving Beyond SWE-Bench Verified: Introducing SWE-Bench Pro

Defining Ideal Coding Benchmarks: Open-Ended Design and Code Quality

Human vs. LLM Annotation: Balancing Realism and Scalability in Coding Evals

Part 3: Future Frameworks, Impact

Integrating Self-Improvement Evals and Measuring Coding Capacity

Preparedness Framework and Future Directions for Coding Evals

OpenAI's Commitment to Real-World Impact and Transparent Evaluation

⚡️The End of SWE-Bench Verified — Mia Glaese & Olivia Watkins, OpenAI Frontier Evals & Human Data

Latent Space: The AI Engineer Podcast

Part 1: Benchmark Analysis, Contamination

00:33SWE-Bench Verified: Identifying Saturation and Contamination in Coding Benchmarks

SWE-Bench Verified: Identifying Saturation and Contamination in Coding Benchmarks

02:08The Open Nature of SWE-Bench Verified and Inevitable Data Contamination

The Open Nature of SWE-Bench Verified and Inevitable Data Contamination

05:17Unveiling Contamination and Narrow Tests in SWE-Bench Verified

Unveiling Contamination and Narrow Tests in SWE-Bench Verified

Part 2: Evolution, New Standards

09:53Moving Beyond SWE-Bench Verified: Introducing SWE-Bench Pro

Moving Beyond SWE-Bench Verified: Introducing SWE-Bench Pro

12:31Defining Ideal Coding Benchmarks: Open-Ended Design and Code Quality

Defining Ideal Coding Benchmarks: Open-Ended Design and Code Quality

15:19Human vs. LLM Annotation: Balancing Realism and Scalability in Coding Evals

Human vs. LLM Annotation: Balancing Realism and Scalability in Coding Evals

Part 3: Future Frameworks, Impact

18:17Integrating Self-Improvement Evals and Measuring Coding Capacity

Integrating Self-Improvement Evals and Measuring Coding Capacity

21:02Preparedness Framework and Future Directions for Coding Evals

Preparedness Framework and Future Directions for Coding Evals

25:07OpenAI's Commitment to Real-World Impact and Transparent Evaluation

OpenAI's Commitment to Real-World Impact and Transparent Evaluation