Künstliche Intelligenz

Die unsichtbaren Helden von Gemini: Rater im KI-Bereich

Eine helle, natürliche Büroumgebung zeigt freundliche Menschen unterschiedlichen Alters und Herkunft konzentriert an Bildschirmen arbeitend, deren intensive Mimik und warme Lichtstimmung das unsichtbare Engagement und die menschliche Sorgfalt hinter der KI-Qualitätssicherung einfühlsam und lebendig widerspiegeln.

Während KI-Modelle wie Googles Gemini immer smarter, schneller und allgegenwärtiger erscheinen, bleibt eine Berufsgruppe oft unsichtbar: die sogenannten Rater. Sie testen, bewerten und verfeinern KI-Antworten – ohne sie würde kein Chatbot so präzise funktionieren, wie wir es heute erwarten.

Was machen eigentlich Rater – und warum sind sie so wichtig?

„Rater“ (auch als Human Annotators oder Data Labeler bezeichnet) sind die versteckten Qualitätssicherer hinter den großen Sprachmodellen wie Gemini (ehemals Bard), ChatGPT oder Claude. Ihre Aufgabe besteht darin, KI-Antworten auf Nutzeranfragen nach Kriterien wie Relevanz, Klarheit, Korrektheit und Nützlichkeit zu bewerten. Zusätzlich vergleichen sie verschiedene Modellantworten und geben Feedback, das den Trainingsprozess von Large Language Models (LLMs) verbessert.

Google setzt beispielsweise externe Arbeitskräfte als Search Quality Evaluators ein – seit Jahren ein fester Bestandteil der Google-Richtlinien. Mit dem Aufstieg von Gemini hat sich das Aufgabenprofil dieser Arbeit ausgeweitet: Neben Websuche werden nun KI-generierte Antworten aus Chat-Interfaces beurteilt. Das Ziel: Alignment mit menschlichen Erwartungen, ethisches Verhalten der KI und sachlich korrekte Inhalte sicherzustellen.

Eine Raterin berichtete im Gespräch mit Time Magazine (2023), sie prüfe an manchen Tagen über 200 Chatbot-Antworten auf Genauigkeit – teils zu hochkomplexen Themen wie Medizin oder Juristerei. Diese Arbeit spielt eine Schlüsselrolle in der Phase des so genannten Reinforcement Learning from Human Feedback (RLHF) – jenem Prozess, der Chatbots hilft, menschliche Präferenzen besser zu verstehen.

Das unsichtbare Rückgrat: Wie Human Feedback KI verbessert

KI-Modelle „lernen“ durch riesige Datenmengen – aber echtes Verständnis entsteht nur durch gezieltes Feedback. Rater liefern genau das: menschliche Perspektive. Studien zeigen, dass Modelle wie GPT-4 ohne RLHF signifikant schlechtere Ergebnisse liefern würden. In einem OpenAI Technical Report gaben die Entwickler an, dass die Leistung von GPT-4 „signifikant vom RLHF-Prozess profitiert“ habe.

Auch bei Gemini, Googles Antwort auf ChatGPT, wird RLHF eingesetzt. Dabei bewerten Rater hunderte Output-Beispiele, priorisieren hilfreiche und lehrreiche Antworten und helfen, toxische oder irreführende Inhalte zu erkennen. Laut Google DeepMind ist dieses menschliche Feedback „eine zentrale Komponente der Sicherheitsarchitektur“ für Gemini.

Das Problem: Viele dieser Systeme sind so aufgebaut, dass die Endnutzer nie erfahren, wie viel menschlicher Input hinter einer scheinbar „autonomen“ KI steckt. Ein Trugschluss, der die Bedeutung dieser Arbeit untergräbt.

Arbeitsbedingungen im Schatten der Künstlichen Intelligenz

Obwohl Rater intellektuell herausfordernde Arbeit leisten, sind ihre Beschäftigungsverhältnisse oft prekär. Wie Recherchen von Bloomberg und Time Magazine zeigen, arbeiten viele über Outsourcing-Dienstleister wie Appen, Telus International oder Scale AI – meist im Rahmen befristeter Verträge ohne Kündigungsschutz oder soziale Absicherung.

Laut einer US-Befragung von Alphabet Workers Union lag der Stundenlohn vieler Google-Rater noch 2023 bei lediglich 14 Dollar. Zum Vergleich: Die US-Gewerkschaft SEIU fordert mindestens 25 Dollar als fairen Mindestlohn für Tech-Vertragsarbeiter mit Datenverantwortung. Auch in Europa kritisieren Gewerkschaften wie UNI Global Union niedrige Löhne, fehlenden Zugang zu psychologischer Betreuung und mangelnde Schulung zu ethischen Standards.

Diese Herausforderungen betreffen nicht nur Beamtenrecht – sie haben reale Auswirkungen auf die Qualität der KI. „Wer schlecht bezahlt wird und unter permanentem Zeitdruck steht, kann keine qualitativ konsistente Bewertungen liefern“, warnt Dr. Dorothea Kolossa, Professorin für KI-Ethik an der TU Dortmund.

Stress, Verantwortung, Isolation: Die Schattenseiten des Rater-Daseins

Neben finanzieller Unsicherheit ist psychischer Stress ein häufiger Kritikpunkt. Rater berichten regelmäßig davon, mit gefährlichen oder verstörenden Inhalten konfrontiert zu werden – von Gewalt über Verschwörungstheorien bis hin zu sexualisierten Inhalten. Gleichzeitig müssen sie technische Präzision und logisches Denken bei der Beurteilung komplexer KI-Antworten zeigen.

„Es ist emotional erschöpfend, täglich darüber entscheiden zu müssen, ob eine Chatbot-Antwort Leben gefährden könnte oder ob sie Kinder manipuliert“, berichtet ein ehemaliger Rater bei OpenAI laut einer Washington Post-Recherche. Entsprechende psychologische Betreuung fehlt in vielen Fällen – obwohl Tech-Giganten von den Ergebnissen unmittelbar profitieren.

Transparenz und Fairness: Was sich ändern muss

Um die Qualität von KI weiterhin hoch zu halten, fordern Experten mehr Transparenz über den Einsatz menschlicher Bewertung in den Trainingsprozessen. Darüber hinaus braucht es strukturelle Verbesserungen für Beschäftigte in diesem Berufsfeld – insbesondere was Bezahlung, Schutz und Mitbestimmung betrifft.

Einige Reformansätze:

  • Faire Vergütung: Einführung eines branchenspezifischen Mindestlohns für Rater, angepasst an örtliche Lebenshaltungskosten.
  • Psychologische Betreuung: Zugang zu professioneller Unterstützung für traumatisierte Rater notwendig machen – verpflichtend, nicht optional.
  • Standardisierte Schulungen: Rater besser ausbilden im Umgang mit ethischen Grenzfragen, Fake News, Bias-Erkennung sowie kultureller Sensibilität.

Unternehmen wie OpenAI haben mittlerweile interne Guidelines und Escalation-Support eingeführt, auch Google testet in Pilotprojekten Feedback-Schleifen gemeinsam mit Gewerkschaften.

Globale Dimension: Warum der Wandel international gedacht werden muss

Die Arbeit von Ratern ist ein globales Phänomen – häufig ausgelagert an Dienstleister in Ländern wie Kenia, Indien oder den Philippinen. Eine Studie des Oxford Internet Institute (2022) zeigte, dass über 70 % aller Trainings- und Moderationsaufgaben für westliche KI-Systeme in Länder des Globalen Südens ausgelagert werden. Besonders brisant: Viele dieser Beschäftigten erhalten Löhne weit unterhalb des Existenzminimums – teils unter 2 US-Dollar pro Stunde.

Vor dem Hintergrund wachsender KI-Abhängigkeit braucht es also nicht nur lokale, sondern internationale Regelwerke zur Fairness und Verantwortung in der KI-Arbeitsteilung. Institutionen wie die UNESCO, die ILO oder die EU-Kommission arbeiten bereits an ethischen Standards, doch ihre Umsetzung bleibt schleppend.

Fazit: Mehr Sichtbarkeit für die menschliche Seite der KI

In der öffentlichen Wahrnehmung gelten Modelle wie Gemini, ChatGPT oder Claude als nahezu autonom denkende Systeme – glatt, präzise, fehlerfrei. Die Realität ist komplexer: Hinter jeder KI antwortet auch ein Mensch. Rater stellen sicher, dass Algorithmen sinnvoll, sicher und korrekt funktionieren. Sie tragen Verantwortung – ohne Entscheidungsgewalt, unter hohem Druck und oft ohne Anerkennung.

Wer KI erlebbar, verständlich und zugleich fair gestalten möchte, sollte auch die Arbeitswelt hinter der Maschine sehen. Die Community aus Forschern, Entwicklern, Unternehmen und Nutzern ist gefragt, sich für ethisch nachhaltige Rahmenbedingungen einzusetzen, die Mensch und Technologie in Einklang bringen.

Diskutieren Sie mit: Was sollte sich an den Arbeitsbedingungen der Rater verbessern? Wie transparent sollten KI-Hersteller über menschliches Feedback berichten? Teilen Sie Ihre Meinung in den Kommentaren.

Schreibe einen Kommentar