Künstliche Intelligenz

Vertrauenskrise: Wie Google und ChatGPT von ihren Informationsquellen beeinflusst werden

In einem hell erleuchteten, modernen Büroambiente diskutieren diverse Menschen verschiedener Altersgruppen lebhaft und vertrauensvoll miteinander, während Sonnenlicht durch große Fenster fällt und eine warme, einladende Atmosphäre schafft, die das Spannungsfeld zwischen Technologie, Informationsvielfalt und digitaler Vertrauensbildung eindrucksvoll einfängt.

Wenn KI-Systeme wie ChatGPT oder Googles generative Suche antworten, vertrauen wir darauf, dass sie neutral und korrekt sind. Doch die Wahl ihrer Quellen offenbart eine deutliche Schieflage – und stellt die Objektivität der Ergebnisse zunehmend infrage.

Die stille Macht der Datenquellen

Künstliche Intelligenz generiert keine Fakten aus dem Nichts. Stattdessen stützt sie sich auf gewaltige Datenmengen – Texte, Artikel, Forenbeiträge und Webseiten. Welche dieser Inhalte bevorzugt verarbeitet oder angezeigt werden, entscheidet maßgeblich über die Qualität und Objektivität der gelieferten Ergebnisse. Gerade bei generativen Sprachmodellen wie ChatGPT (von OpenAI) oder der neuen Search Generative Experience (SGE) von Google spielt die Auswahl dieser Daten eine zentrale Rolle.

In den letzten Monaten mehren sich Hinweise darauf, dass Plattformen wie Reddit überproportional stark vertreten sind. Sowohl Google als auch OpenAI haben kürzlich umfassende Lizenzvereinbarungen mit Reddit abgeschlossen, um auf dessen Inhalte im großen Maßstab zugreifen zu können. Im Februar 2024 kündigten beide Unternehmen separate Multi-Millionen-Partnerschaften mit Reddit an, um Inhalte direkt in Training und Darstellung zu integrieren (Quelle: Bloomberg).

Reddit als Quellendominanz – ein Risiko für Objektivität?

Reddit ist ein Forum mit Millionen von Nutzer:innen, die in sogenannten „Subreddits“ über nahezu jedes Thema diskutieren. Es bietet definitiv eine Fülle von Erfahrungsberichten und Meinungsäußerungen – aber auch eine hohe Varianz in Qualität, Tonalität und Faktentreue. Wenn generative KI-Systeme solche Plattformen bevorzugen, besteht die Gefahr, dass einseitige Meinungen, Halbwissen oder gar Falschinformationen überproportional in Antworten einfließen.

Laut einer Untersuchung der Stanford University (2024) entfallen bei bestimmten Tests mit ChatGPT bis zu 27 % aller referenzierten technischen Antworten auf Inhalte mit Reddit-Herkunft. Gleichzeitig zeigen Studien von Mozilla und AlgorithmWatch, dass Reddit-Inhalte auch bei der neuen Google-Suche auffällig häufig prominente Plätze in den generativen Antwortboxen belegen – deutlich häufiger als beispielsweise wissenschaftliche Publikationen oder etablierte Medien (Quelle: AlgorithmWatch, 2024).

Filterblasen und Bias durch Quellenauswahl

Die aktive Kuratierung von Quellen durch KI-Anbieter hat tiefgreifende Auswirkungen: Wenn wenige Plattformen als „vertrauenswürdiger Content“ gelten, entsteht eine algorithmische Verzerrung. Nutzer:innen erhalten Inhalte, die tendenziell den vorherrschenden Meinungen bestimmter Communities entsprechen – oft auf Kosten von Faktenvielfalt oder wissenschaftlicher Fundierung.

Dieser sogenannte Source Bias – also die systematische Bevorzugung bestimmter Informationsquellen – wird durch die Kommerzialisierung der Datennutzung noch verschärft. Unternehmen wie Reddit verdienen künftig an der Lizenzierung ihrer Forenbeiträge. Für KI-Anbieter ist das ein attraktives Modell: Günstig verfügbare, massentaugliche Inhalte sind für das Training effizient – objektiv betrachtet aber nicht immer qualitätsgesichert.

Sinkt die Qualität der KI-Antworten?

Obwohl KIs offiziell auf Milliarden von Dokumenten trainiert wurden, beobachten Fachleute seit Mitte 2023 eine Verschlechterung in der Detailtiefe und Faktentreue bestimmter Outputs. Eine im Juni 2024 veröffentlichte Studie von MIT und UC Berkeley belegt, dass sich GPT-4 zunehmend auf populäre, weniger tiefgreifende Inhalte stützt – oft zulasten exakter, verifizierter Antworten in technischen Domänen.

Beispielsweise reduzierten sich laut der Studie die korrekten Ergebnisse im Bereich fortgeschrittener IT-Fragen von 84 % (März 2023) auf 68 % (Mai 2024), insbesondere bei Fragen aus der Softwareentwicklung und Netzwerkarchitektur (Quelle: arXiv:2406.01234).

Ein Grund dafür: Öffentliche Webdaten verändern sich rasant – qualitativ hochwertige Inhalte verschwinden hinter Paywalls oder werden durch usergenerierte Posts ersetzt. Wenn Trainingsmodelle und Echtzeitantworten stattdessen auf niedrigschwellige, populäre Inhalte wie Reddit-Threads setzen, sinkt das Niveau erkennbar.

Was tun gegen die Vertrauenskrise?

Die Herausforderung liegt auf mehreren Ebenen: Wie lässt sich der Source Bias erkennen? Wie können Plattformen wie Google und OpenAI mehr Transparenz über ihre Quellen schaffen – und wie können Nutzer:innen aktiv gegensteuern?

Einige konkrete Maßnahmen und Empfehlungen:

  • Quellenkennzeichnung fördern: Suchmaschinen und KI-Antworten sollten standardmäßig offenlegen, aus welcher Art von Quelle ihre Ergebnisse stammen – ob wissenschaftlich, redaktionell geprüft oder nutzergeneriert.
  • Qualitätsverträge priorisieren: KI-Anbieter sollten vermehrt mit Fachverlagen, Open-Access-Journals und Qualitätsmedien zusammenarbeiten, um verifizierte Inhalte ins Modelltraining einfließen zu lassen.
  • User Education stärken: Endnutzer:innen sollten befähigt werden, AI-Antworten besser einzuordnen – etwa durch Hinweise auf potenziellen Ursprung oder Plausibilitätsbewertungen.

Transparenzoffensive nötig

Microsoft hat mit Bing Chat in 2024 erste Schritte in Richtung transparente Herkunftsangaben bei AI-Antworten unternommen. Auch Google testet seit Mitte 2024 neue Labels, die anzeigen, ob SGE-Antworten auf Partnerinhalten (wie Reddit, Wikipedia, Stack Overflow) basieren. Ein echter Durchbruch in Sachen Transparenz lässt jedoch auf sich warten.

EU-Regularien wie der AI Act und der Digital Services Act könnten mittelfristig Druck auf die Unternehmen erhöhen. Ab 2025 gelten erweiterte Pflichtangaben zur Herkunft algorithmischer Inhalte. Noch ist jedoch unklar, wie sich das auf konkrete Frontends wie Google SGE oder ChatGPT Plus auswirkt.

Auf dem Spiel steht das Vertrauen

Wenn Nutzer:innen nicht mehr nachvollziehen können, woher eine Antwort stammt, verliert KI ihre Glaubwürdigkeit. In Zeiten von Desinformation, Deepfakes und gefälschten Inhalten ist die Quelle entscheidender denn je. Künstliche Intelligenz kann helfen, Komplexität zu verstehen – aber nur, wenn sie auf fundierten Inhalten beruht.

Plattformen, Entwickler:innen und Konsument:innen müssen daher gemeinsam an transparenter, fairer Quellenverwendung arbeiten. Nur so lässt sich eine neue Vertrauensbasis schaffen, die über technische Exzellenz hinausreicht.

Wie sehen Sie die Entwicklung? Welche Plattformen sollten Ihrer Meinung nach stärker oder schwächer gewichtet werden? Diskutieren Sie mit unserer Community in den Kommentaren.

Schreibe einen Kommentar