Künstliche Intelligenz

Welchen Einfluss haben synthetische Daten auf KI-Halluzinationen?

Veröffentlicht 8. Februar 2025

Zac Amos

Obwohl synthetische Daten ein mächtiges Werkzeug sind, können sie die Halluzinationen der künstlichen Intelligenz nur unter bestimmten Umständen reduzieren. In fast allen anderen Fällen werden sie dadurch verstärkt. Warum ist das so? Was bedeutet dieses Phänomen für diejenigen, die darin investiert haben?

Wie unterscheiden sich synthetische Daten von realen Daten?

Synthetische Daten sind Informationen, die von KI generiert werden. Anstatt aus realen Ereignissen oder Beobachtungen zu stammen, werden sie künstlich erzeugt. Sie ähneln dem Original jedoch gerade genug, um genaue, relevante Ergebnisse zu liefern. Das ist jedenfalls die Idee.

Um einen künstlichen Datensatz zu erstellen, trainieren KI-Ingenieure einen generativen Algorithmus anhand einer realen relationalen Datenbank. Auf Nachfrage erzeugt dieser einen zweiten Datensatz, der dem ersten sehr ähnlich ist, aber keine echten Informationen enthält. Während die allgemeinen Trends und mathematischen Eigenschaften erhalten bleiben, gibt es genug Rauschen, um die ursprünglichen Beziehungen zu verschleiern.

Ein KI-generierter Datensatz geht über die Deidentifizierung hinaus und repliziert die zugrunde liegende Logik der Beziehungen zwischen Feldern, anstatt Felder einfach durch gleichwertige Alternativen zu ersetzen. Da er keine identifizierenden Details enthält, können Unternehmen ihn verwenden, um Datenschutz- und Urheberrechtsbestimmungen zu umgehen. Und was noch wichtiger ist: Sie können ihn frei teilen oder verteilen, ohne einen Verstoß befürchten zu müssen.

Häufiger werden Fake-Informationen jedoch zur Ergänzung verwendet. Unternehmen können damit zu kleine Stichproben anreichern oder erweitern, sodass sie groß genug sind, um KI-Systeme effektiv zu trainieren.

Minimieren synthetische Daten KI-Halluzinationen?

Manchmal verweisen Algorithmen auf nicht existierende Ereignisse oder machen logisch unmögliche Vorschläge. Diese Halluzinationen sind oft unsinnig, irreführend oder falsch. Ein großes Sprachmodell könnte beispielsweise einen Artikel mit Anleitungen zum Zähmen von Löwen oder zum Arztwerden mit 6 Jahren schreiben. Allerdings sind sie nicht alle so extrem, was ihre Erkennung schwierig machen kann.

Bei entsprechender Kuratierung können künstliche Daten diese Vorfälle abmildern. Eine relevante, authentische Trainingsdatenbank ist die Grundlage für jedes Modell. Daher ist es naheliegend, dass die Ergebnisse des Modells umso präziser sind, je mehr Details jemand hat. Ein ergänzender Datensatz ermöglicht Skalierbarkeit, selbst für Nischenanwendungen mit begrenzten öffentlichen Informationen.

Debiasing ist eine weitere Möglichkeit, wie eine synthetische Datenbank KI-Halluzinationen minimieren kann. Laut der MIT Sloan School of Management kann helfen, Vorurteile abzubauen weil es nicht auf die ursprüngliche Stichprobengröße beschränkt ist. Fachleute können realistische Details verwenden, um die Lücken zu füllen, in denen bestimmte Teilpopulationen unter- oder überrepräsentiert sind.

Wie künstliche Daten Halluzinationen verschlimmern

Da intelligente Algorithmen kann Informationen weder begründen noch kontextualisieren, sie sind anfällig für Halluzinationen. Generative Modelle – insbesondere vortrainierte große Sprachmodelle – sind besonders anfällig. In gewisser Weise verschärfen künstliche Fakten das Problem.

Bias-Verstärkung

Wie Menschen kann auch KI lernen und Vorurteile reproduzieren. Wenn eine künstliche Datenbank einige Gruppen überbewertet und andere unterrepräsentiert – was besorgniserregend leicht versehentlich passieren kann –, wird ihre Entscheidungslogik verzerrt, was sich negativ auf die Genauigkeit der Ergebnisse auswirkt.

Ein ähnliches Problem kann entstehen, wenn Unternehmen gefälschte Daten verwenden, um reale Verzerrungen zu eliminieren, da diese möglicherweise nicht mehr der Realität entsprechen. Da beispielsweise über 99 % der Brustkrebserkrankungen Bei Frauen kann die Verwendung zusätzlicher Informationen zur Ausgewogenheit der Darstellung zu einer verfälschten Diagnose führen.

Intersektionale Halluzinationen

Intersektionalität ist ein soziologischer Rahmen, der beschreibt, wie sich demografische Merkmale wie Alter, Geschlecht, Rasse, Beruf und Klasse überschneiden. Er analysiert, wie sich überschneidende soziale Identitäten von Gruppen zu einzigartigen Kombinationen von Diskriminierung und Privilegien führen.

Wenn ein generatives Modell aufgefordert wird, künstliche Details auf der Grundlage dessen zu produzieren, womit es trainiert wurde, kann es Kombinationen generieren, die im Original nicht vorhanden waren oder logisch unmöglich sind.

Ericka Johnson, Professorin für Gender und Gesellschaft an der Universität Linköping, arbeitete mit einem Wissenschaftler für maschinelles Lernen zusammen, um dieses Phänomen zu demonstrieren. Sie verwendeten ein generatives kontradiktorisches Netzwerk zur Herstellung synthetischer Versionen der US-Volkszählungszahlen von 1990.

Sofort fiel ihnen ein eklatantes Problem auf. Die künstliche Version enthielt Kategorien wie „Ehefrau und Single“ und „nie verheiratete Ehemänner“, die beide intersektionale Halluzinationen waren.

Ohne ordnungsgemäße Kuratierung wird die Replikationsdatenbank dominante Subpopulationen in Datensätzen immer überrepräsentieren, während unterrepräsentierte Gruppen unterrepräsentiert oder sogar ausgeschlossen werden. Randfälle und Ausreißer können zugunsten dominanter Trends vollständig ignoriert werden.

Modellkollaps

Ein übermäßiges Vertrauen in künstliche Muster und Trends führt zum Zusammenbruch des Modells. Dabei verschlechtert sich die Leistung eines Algorithmus drastisch, da er sich weniger gut an reale Beobachtungen und Ereignisse anpassen kann.

Dieses Phänomen ist besonders bei der nächsten Generation generativer KI offensichtlich. Die wiederholte Verwendung einer künstlichen Version zum Trainieren dieser KI führt zu einer selbstverbrauchenden Schleife. Eine Studie ergab, dass ihre Qualitäts- und Erinnerungsverlust nach und nach, ohne dass in jeder Generation genügend aktuelle, tatsächliche Zahlen vorliegen.

Überanpassung

Überanpassung ist eine übermäßige Abhängigkeit von Trainingsdaten. Der Algorithmus funktioniert zunächst gut, wird aber halluzinieren, wenn er mit neuen Datenpunkten konfrontiert wird. Synthetische Informationen können dieses Problem noch verstärken, wenn sie die Realität nicht genau widerspiegeln.

Die Folgen der fortgesetzten Nutzung synthetischer Daten

Der Markt für synthetische Daten boomt. Unternehmen dieser Nischenbranche sammelte rund 328 Millionen US-Dollar im Jahr 2022, gegenüber 53 Millionen Dollar im Jahr 2020 – eine Steigerung von 518 % in nur 18 Monaten. Es ist erwähnenswert, dass es sich hierbei ausschließlich um öffentlich bekannte Finanzierungen handelt, was bedeutet, dass die tatsächliche Zahl sogar noch höher sein kann. Man kann mit Sicherheit sagen, dass die Unternehmen unglaublich viel in diese Lösung investieren.

Wenn Unternehmen weiterhin künstliche Datenbanken ohne angemessene Pflege und Entzerrung verwenden, wird die Leistung ihres Modells zunehmend nachlassen, was ihre KI-Investitionen zunichte macht. Je nach Anwendung können die Folgen schwerwiegender sein. Im Gesundheitswesen beispielsweise kann ein Anstieg von Halluzinationen zu Fehldiagnosen oder falschen Behandlungsplänen führen, was wiederum zu schlechteren Behandlungsergebnissen für die Patienten führt.

Die Lösung besteht nicht darin, zu realen Daten zurückzukehren

KI-Systeme benötigen zum Training Millionen, wenn nicht Milliarden von Bildern, Texten und Videos, von denen viele von öffentlichen Websites stammen und in riesigen, offenen Datensätzen zusammengestellt werden. Leider verarbeiten Algorithmen diese Informationen schneller, als Menschen sie generieren können. Was passiert, wenn sie alles lernen?

Unternehmensführer sind besorgt, dass sie bald an die Datenwand stoßen könnten – an den Punkt, an dem alle öffentlichen Informationen im Internet erschöpft sind. Dieser Punkt könnte schneller kommen, als sie denken.

Obwohl sowohl die Menge an Klartext auf einer durchschnittlichen Common-Crawl-Webseite als auch die Anzahl der Internetnutzer wachsen um 2 bis 4 % Jährlich gehen den Algorithmen die qualitativ hochwertigen Daten aus. Nur 10 bis 40 Prozent davon können ohne Leistungseinbußen zum Training verwendet werden. Wenn sich dieser Trend fortsetzt, könnte der von Menschen generierte öffentliche Informationsbestand bis 2026 erschöpft sein.

Aller Wahrscheinlichkeit nach wird der KI-Sektor sogar noch früher an die Datenmauer stoßen. Der Boom der generativen KI der letzten Jahre hat die Spannungen in Bezug auf Informationseigentum und Urheberrechtsverletzungen verschärft. Immer mehr Websitebesitzer verwenden das Robots Exclusion Protocol – einen Standard, der mithilfe einer robots.txt-Datei Webcrawler blockiert – oder machen deutlich, dass ihre Website tabu ist.

Eine Studie, die 2024 von einer MIT-geführten Forschungsgruppe veröffentlicht wurde, enthüllte, dass der Colossal Cleaned Common Crawl (C4)-Datensatz – ein groß angelegtes Web-Crawl-Korpus – immer mehr Einschränkungen aufweist. 28 % der aktivsten, kritischen Quellen in C4 waren vollständig gesperrt. Darüber hinaus sind 45 % von C4 in den Nutzungsbedingungen inzwischen als gesperrt ausgewiesen.

Wenn die Unternehmen diese Beschränkungen respektieren, werden die Aktualität, Relevanz und Genauigkeit öffentlich zugänglicher Fakten aus der realen Welt abnehmen und sie werden gezwungen sein, sich auf künstliche Datenbanken zu verlassen. Wenn die Gerichte entscheiden, dass jede Alternative eine Urheberrechtsverletzung darstellt, bleibt ihnen möglicherweise keine große Wahl.

Die Zukunft synthetischer Daten und KI-Halluzinationen

Da die Urheberrechtsgesetze modernisiert werden und immer mehr Websitebesitzer ihre Inhalte vor Webcrawlern verbergen, wird die Generierung künstlicher Datensätze immer beliebter. Unternehmen müssen sich auf die Gefahr von Halluzinationen vorbereiten.

Verwandte Themen:Ai-Halluzination synthetische Daten

Zac Amos

Zac Amos ist ein Tech-Autor, der sich auf künstliche Intelligenz konzentriert. Er ist außerdem Features Editor bei ReHack, wo Sie mehr über seine Arbeit lesen können.