KI-Benchmarks gelten als Goldstandard für die Bewertung von Modellen. Doch eine aktuelle Studie des Oxford Internet Institute wirft grundlegende Fragen auf: Wie zuverlässig sind unsere Messlatten für künstliche Intelligenz wirklich – und welchen Einfluss hat das auf die Zukunft der Technologie?
Oxford-Studie legt tiefe Mängel in KI-Benchmarks offen
Die Studie „Beyond the Benchmark“ des Oxford Internet Institute (OII), veröffentlicht im Oktober 2025, analysierte über 600 weitverbreitete Benchmarks in der KI-Forschung – darunter bekannte Datensätze wie ImageNet, GLUE, SuperGLUE oder auch MMLU (Massive Multitask Language Understanding). Die Ergebnisse sind alarmierend: Über 60 % der untersuchten Benchmarks weisen signifikante methodische Schwächen auf, etwa eine mangelnde Repräsentation realer Anwendungsfälle, übertrainierte Modelle (sogenanntes Benchmark-Overfitting) und veraltete Testfälle, die den aktuellen Stand der Technik nicht mehr abbilden.
„Viele dieser Benchmarks messen nicht mehr das, was wir eigentlich wissen wollen – nämlich, wie robust, verlässlich und adaptiv KI-Systeme außerhalb kontrollierter Testumgebungen funktionieren“, so Dr. Sandra Wachter, Co-Autorin der Studie und Professorin für Technologierecht am OII.
Benchmarking in der KI-Forschung: Warum es (eigentlich) wichtig ist
Benchmarks dienen in der Entwicklung von Künstlicher Intelligenz als vergleichende Werkzeuge: Forscher nutzen standardisierte Testsets, um neue Modelle mit bestehenden zu vergleichen. Dabei geht es nicht nur um Leistung, sondern auch um Fairness, Transparenz, Robustheit und Generalisierbarkeit. Tools wie GLUE, CoQA oder Multilingual Machine Translation Benchmarks ermöglichen es, Fortschritte objektiv zu messen – zumindest theoretisch.
Das Problem: Laut der Oxford-Studie verwenden viele Modelle eine Art „Prüfungsstrategie“ – sie lernen die Testdaten regelrecht auswendig, ohne tiefes Verständnis zu entwickeln. Dies führt zu künstlich hohen Leistungswerten, die im realen Einsatz nicht reproduzierbar sind. Ein Beispiel ist GPT-4, das auf führenden Benchmarks wie MMLU oder GSM8K scheinbar den Menschen übertrifft – in der Praxis jedoch oft an unerwarteten Problemen scheitert.
Verzerrte Datensätze und überoptimierte Modelle
Ein zentrales Problem liegt in der mangelnden Diversität und Repräsentativität vieler Benchmarks. Zahlreiche Datensätze basieren auf Wikipedia, Nachrichtenartikeln oder Reddit-Inhalten – dabei dominieren westliche, anglophone, männlich geprägte Perspektiven. Daraus resultieren nicht nur Biases, sondern auch ein Modellverhalten, das nur für bestimmte Kulturen und Kontexte gut kalibriert ist.
Zudem machen Forschende zunehmend Gebrauch von gezieltem Tuning für bestimmte Benchmarks. So zeigte eine Meta-Analyse von 2024 (Nature Machine Intelligence), dass mehr als 48 % der NLP-Modelle auf dieselben zehn Benchmarks trainiert wurden – ein typisches Beispiel für Overfitting auf Metriken statt auf echte Leistung.
„Wir bauen Supermodelle für Multiple-Choice-Tests – aber keine Systeme, die in dynamischer, multimodaler Realität bestehen“, kritisiert Dr. Emily Bender, Linguistin und KI-Ethik-Forscherin an der University of Washington.
Praktische Folgen für Wissenschaft und Industrie
Diese Fehlentwicklung hat weitreichende Konsequenzen: Unternehmen evaluieren KI-Plattformen anhand ihrer Benchmark-Werte und treffen Kaufentscheidungen auf der Basis von Charts, die nicht die reale Leistungsfähigkeit abbilden. In der Forschung wiederum führt die Fixierung auf Benchmark-Leaderboards zur Vernachlässigung grundlegender Fragen: Wie erklärbar sind Modelle? Wie resilient bei Datenverschiebungen? Können sie mit Unsicherheiten umgehen?
Eine 2025 veröffentlichte Untersuchung von Papers with Code zeigt, dass zwischen 2019 und 2024 nur 18 % der KI-Ausarbeitungen alternative Evaluationsmethoden einsetzten – ein alarmierender Indikator für die Monokultur der Bewertung.
Was sagen Entwicklerinnen und Entwickler?
In einer Diskussionsrunde mit führenden AI-Praktikern zeigten sich gemischte Meinungen:
- Dr. Bernhard Scholkopf (MPI für Intelligente Systeme): „Benchmarks sind unverzichtbar – aber sie müssen kontinuierlich evaluiert, dezentralisiert und erweitert werden.“
- Dr. Irene Li (Meta AI): „Wir brauchen mehr dynamische, aufgabenunabhängige Testszenarien – etwa Simulationen oder Echtanwendungen.“
- Nicolas Doucet (Hugging Face): „Transparente Reporting-Standards und Vergleichbarkeit über Metriken hinweg sind essenziell, um Benchmarks sinnvoll zu nutzen.“
Die Diskutantinnen und Diskutanten plädierten auch für die stärkere Einbindung nicht-akademischer Akteure – etwa NGOs, Nutzende oder öffentliche Stellen – bei der Gestaltung zukünftiger Benchmarks.
Ein weiteres Anliegen: Multimodalität. KI-Modelle, die Sprache, Bild und Aktion vereinen, lassen sich zunehmend schwer mit eindimensionalen Textbenchmarks messen. Neue Formate wie VALHALLA (Visual and Language Holistic AI Assessment), veröffentlicht von der Stanford University im September 2025, bieten hier erste Ansätze für realitätsnahe Bewertungskontexte.
Statistische Fakten: Laut Stanford AI Index 2025 wurden 73 % aller veröffentlichten KI-Papers zwischen 2020 und 2024 auf feste Benchmarks wie GLUE, SQUAD oder MNLI evaluiert – weniger als 9 % testeten Modelle im Produktivumfeld oder Langzeitkontext. Quelle: Stanford AI Index Report 2025.
Benchmark-Alternativen: Was sind sinnvolle Ansätze?
Einige Institutionen arbeiten bereits an vielfältigeren Bewertungsmethoden. Die Initiative „Dynamic Attributed Testbeds“ der Universität Tübingen kombiniert synthetische und reale Daten, um Modelle unter Data-Shift-Bedingungen zu testen. Ebenso setzt OpenAI verstärkt auf sogenannte RLHF-Bewertungen (Reinforcement Learning from Human Feedback), um subjektive Qualität und Nutzerzufriedenheit zu messen.
Nützliche Alternativen im Überblick:
- Simulationen mit echten Nutzerdaten: Beispiel Amazon Alexa Simulationsumgebung
- Task-basierte Evaluation: Integration realer Aufgabenstellungen aus Medizin, Recht und Bildung (z. B. MedQA, CaseLaw Benchmark)
- Human-in-the-Loop-Tests: Einbeziehung menschlicher Feedback-Loops in Echtzeit (u. a. von Anthropic und Cohere eingesetzt)
Handlungsempfehlungen für Forschung und Industrie
- Fokussieren Sie auf benchmarkübergreifende Generalisierbarkeit statt nur auf Spitzenwerte einzelner Tests.
- Implementieren Sie kontinuierliche Validierung in dynamischen Einsatzszenarien, nicht nur auf statischen Datensätzen.
- Beziehen Sie menschliches Feedback und ethische Bewertungskriterien in die Evaluationspraxis mit ein.
Ein Bewusstsein für diese Herausforderungen ist insbesondere im regulatorischen Kontext – etwa mit Blick auf den EU AI Act – entscheidend: Modelle, die durch fragwürdige Benchmarks gut aussehen, könnten unter realen Bedingungen gefährliche Schwächen aufweisen.
Fazit: Vertrauen schaffen durch bessere Bewertung
Die Forschung steht an einem Scheideweg: Wollen wir KI in den Dienst von Gesellschaft und Verantwortung stellen, genügt es nicht, auf Benchmark-Tabellen zu brillieren. Vielmehr müssen wir lernen, realitätsnah, dynamisch und menschenzentriert zu testen. Die OII-Studie ist ein wichtiger Weckruf – für Entwickler, Unternehmen, Politik und uns als Gesellschaft.
Welche Erfahrungen habt ihr mit Benchmarking gemacht? Welche Ansätze verwendet ihr, um eure Modelle zu testen? Diskutiert mit uns in den Kommentaren und teilt eure Perspektiven!




