Der wichtigste Benchmark für Coding-KI: Wie viele echte GitHub-Bugs kann ein Modell selbstständig lösen?
SWE-Bench (Software Engineering Benchmark) ist ein Datensatz aus echten GitHub-Issues realer Open-Source-Projekte. Ein KI-Modell bekommt den Issue und das Repository — und muss eigenständig einen funktionierenden Code-Fix produzieren. SWE-Bench Verified: von Menschen geprüfte Subset-Aufgaben. SWE-Bench Pro: deutlich schwierigere, neuere Issues. Claude Mythos erreichte 93,9% auf Verified (Opus 4.6: 80,8%) — ein massiver Sprung. Zum Vergleich: Menschliche Senior-Entwickler lösen ~80-85%.
Ein Modell bekommt: "In diesem Python-Repo schlägt Test #47 fehl, hier der Fehlerlog." Es soll den Bug selbst finden und fixen — ohne Hilfe.