Künstliche Intelligenz

Sensible Daten in Open-Source-Datensätzen – Gefahr für Privatsphäre

Ein einladend helles, natürlich beleuchtetes Szenario eines modernen Arbeitsplatzes mit fokussiertem Team aus vielfältigen Forschenden, die an Laptops und großen Bildschirmen mit komplexen Datenanalysen arbeiten, umgeben von warmen Holztönen und grünen Pflanzen, das Vertrauen, Verantwortung und den sensiblen Umgang mit digitalen Informationen symbolisiert.

Offene Datensätze treiben die Entwicklung Künstlicher Intelligenz entscheidend voran – doch sie bergen auch Risiken. Jüngste Untersuchungen am weit verbreiteten DataComp-Datensatz offenbaren ein beunruhigendes Leak: Tausende personenbezogene Informationen sind darin frei zugänglich. Ein Datenschutz-Dilemma für die KI-Forschung?

Einblicke in DataComp: Der CommonPool unter der Lupe

Im Frühjahr 2024 veröffentlichte ein Forschungsteam von Meta AI und der University of Washington mit DataComp ein neues Benchmarking-Toolkit zur Evaluierung großer Bild-Text-Datensätze. Herzstück ist der sogenannte CommonPool – ein 1,3-Milliarden großer Pool aus Bild-Text-Paaren, zusammengestellt aus öffentlich zugänglichen Webquellen. Ziel war es, KI-Systeme effizienter mit qualitativ hochwertigen Daten trainieren zu können.

Doch schon kurz nach Veröffentlichung schlugen Expert:innen Alarm: Eine unabhängige Analyse des gemeinnützigen Tech-Kollektivs LAION offenbarte, dass im CommonPool zahlreiche sensible personenbezogene Daten enthalten sind – darunter vollständige Namen, Adressen, Telefonnummern, E-Mail-Adressen und sogar Bilder von Ausweisdokumenten sowie medizinische Daten.

Laut dem offiziellen Bericht von LAION sind über 480.000 potenziell kritische Instanzen identifiziert worden – ein massiver Verstoß gegen gängige Datenschutzprinzipien. Besonders alarmierend: Viele dieser Inhalte stammen von Social-Media-Plattformen, Blogs und Foren, wo Nutzer:innen nicht mit einem KI-Training ihrer Beiträge gerechnet haben dürften.

Ein strukturelles Problem offener Data Pipelines

Open-Source-Datensätze wie LAION-5B, Common Crawl oder eben der CommonPool sind zentrale Bestandteile des aktuellen KI-Wachstums. Doch während ihre Offenheit Transparenz und Innovation fördert, fehlt es oft an systematischen Content-Filtern, um sensible Daten herauszufiltern. Häufig bedienen sich Aggregationstools wie wget oder maßgefertigte Scraper brav an der Oberfläche des Webs – mit der gefährlichen Konsequenz, dass nicht nur öffentlich Gemeintes, sondern auch versehentlich Offenbartes eingesammelt wird.

Besonders problematisch ist dabei das sogenannte „Data Poisoning“, bei dem fehlerhafte oder unzulässige Inhalte maschinenlesbar gemacht und in Trainingssets einfließen. Ein Problem, auf das auch die Forschung zunehmend aufmerksam wird: Eine Analyse der Universität Stanford aus 2023 zeigte, dass rund 3% der Inhalte aus großen Web-Datensätzen personenbezogene Daten enthalten (Quelle: Stanford HAI, 2023).

Damit stellt sich die grundsätzliche Frage: Wie lässt sich Offenheit mit Privatsphäre vereinbaren – und wer trägt Verantwortung, wenn Datenlecks unabsichtlich reproduziert werden?

Gesetzliche Schranken: DSGVO, HIPAA & Co.

In der Europäischen Union regelt die Datenschutz-Grundverordnung (DSGVO) die Nutzung personenbezogener Daten. Gemäß Artikel 9 ist das Trainieren von KI-Systemen auf sensiblen Daten – z. B. zu Religion, Gesundheit, Biometrie – grundsätzlich verboten, es sei denn, es liegt eine ausdrückliche Einwilligung vor. In den USA gelten je nach Kontext spezielle Regelungen, etwa der Health Insurance Portability and Accountability Act (HIPAA) im Gesundheitsbereich.

Offen bleibt jedoch, wie diese Vorschriften auf intransparente Data Lakes anzuwenden sind. Forschungsinstitute verstecken sich oft hinter dem Argument der Nichtkommerzialität oder Verfügbarkeit der Daten im öffentlichen Web. Doch rechtlich gilt: Zugänglichkeit bedeutet nicht Verarbeitungserlaubnis.

Die Datenschutzkonferenz der deutschen Aufsichtsbehörden führte 2024 eine Sonderprüfung durch und kam zu dem Urteil, dass die Nutzung öffentlich verfügbarer personenbezogener Daten für KI-Trainings klaren rechtlichen Rahmenbedingungen unterliege – egal, ob sie über Open-Source-Pipelines aggregiert wurden oder nicht.

Risiken für Privatsphäre und gesellschaftliche Folgen

Die Verarbeitung von personenbezogenen Daten ohne Einwilligung kann weitreichende Folgen haben – sowohl individuell als auch gesellschaftlich:

  • Reidentifikation: Selbst scheinbar anonymisierte Daten können über Text- oder Bildabgleich rückverfolgt werden. Bei Deep Learning-Modellen können Trainingsdaten „wiedererlernt“ und in Outputs erscheinen.
  • Diskriminierung und Bias: Durch fehlerhaftes Training auf sensiblen Daten können Vorurteile entstehen – etwa wenn etwaige ethnische oder geschlechtsspezifische Informationen ungewollt einfließen.
  • Rechtliche und ethische Konsequenzen: Die Verbreitung solcher Daten birgt Haftungsrisiken – nicht nur für Sammler:innen, sondern auch für Anwender:innen der trainierten Modelle.

Eine KI, die auf fehlerbehafteten oder sensiblen Trainingsdaten basiert, reproduziert nicht nur Datenschutzverletzungen, sondern beschädigt langfristig Vertrauen in die Technologie. Es braucht daher klare Strategien zur Datenbereinigung und Verantwortung in der Development-Chain.

Herausforderungen bei der Datenbereinigung

Zwar existieren technische Ansätze zur Datenfilterung – etwa Named Entity Recognition (NER), Hash-Vergleiche oder Bildklassifikation auf PII-relevante Elemente (Personally Identifiable Information) – doch deren Wirksamkeit ist begrenzt. Besonders bei multimodalen Daten liegt die Komplexität darin, dass sensible Informationen sowohl visuell als auch textuell codiert sein können.

Ein typisches Beispiel: Ein Passfoto mit Textbeschreibung auf einem Blogeintrag verrät nicht nur das Gesicht, sondern auch Name, Geburtsdatum und Nationalität – Informationen, die sich mit klassischen Scrubber-Methoden oft nicht vollständig erfassen lassen.

Laut einer Studie der University of California San Diego aus 2024 (PII in the Wild) waren rund 2,1% der ocra-gefilterten Bilder in öffentlichen Datensätzen weiterhin identifizierbar – trotz mehrfacher Bereinigungsschritte. Über 30% enthielten Textinformationen mit Namen und Telefonnummern.

Der Aufwand für manuelle Nachbearbeitung ist enorm und im Maßstab von Milliarden Dateneinträgen kaum realistisch.

Was Forschende und Entwickler:innen jetzt tun sollten

Die Offenlegung sensibler Daten in öffentlich trainierten KI-Datensätzen ist nicht nur ein ethisches, sondern ein strukturelles Problem – das jedoch lösbar ist. Folgende Maßnahmen gelten als best practices:

  • PII-Auditing als Standardprozess: Vor der Veröffentlichung oder Nutzung müssen Datensätze systematisch auf personenbezogene Informationen geprüft werden – idealerweise mit Kombination aus NLP, OCR und Gesichtserkennung.
  • Rechtliche Bewertung: Teams sollten frühzeitig juristischen Rat einholen, um DSGVO-Konformität zu garantieren – insbesondere bei Forschungsprojekten mit Open-Source-Charakter.
  • Transparenz und Opt-Out-Systeme für Betroffene: Projekte können Meldeformulare einbinden, mit denen Nutzer:innen PII entfernen lassen können. Perspektivisch könnten auch kryptografische Wasserzeichen zur Rückverfolgung verwendet werden.

Zudem fordern Initiativen wie Mozilla Foundation, LAION und EleutherAI striktere Standards für Open-Data-Projekte: Leitlinien sollten nicht nur minimale technische Anforderungen enthalten, sondern auch ethische und soziale Normen berücksichtigen. GitHub-Repositories etwa könnten standardisierte Privacy-Rating-Schemata integrieren.

Schlussfolgerung: Innovation braucht Verantwortung

Die Enthüllung im CommonPool des DataComp-Projekts sollte der KI-Community ein Weckruf sein. Wer Daten öffnet, muss auch die Privatsphäre schützen. Gerade in einer Ära, in der KI-Systeme zunehmend in gesellschaftliche Entscheidungen eingreifen – von medizinischen Diagnosen bis Content-Empfehlungen – darf der Datenursprung kein blinder Fleck sein.

Die Zukunft liegt in der kontrollierten Transparenz: Open-Source ist kein Freifahrtschein, sondern ein Auftrag zum verantwortungsvollen Umgang mit Informationen. Kooperation und offene Standards sind gefragt, um Innovation und Datenschutz in Einklang zu bringen.

Wir möchten Ihre Meinung hören: Wie gehen Sie in Ihrem Unternehmen oder Projekt mit sensiblen Daten in Trainingssets um? Welche Tools und Prozesse haben sich bewährt – und wo sehen Sie Handlungsbedarf? Teilen Sie Ihre Erfahrungen mit der Community im Kommentarfeld.

Schreibe einen Kommentar