Connect with us

Der Aufstieg von synthetischen Daten und warum sie reale Daten ergänzen anstatt ersetzen

Vordenker

Der Aufstieg von synthetischen Daten und warum sie reale Daten ergänzen anstatt ersetzen

mm

Elon Musk hat kürzlich erklärt, dass wir die verfügbaren menschlichen Daten für die Ausbildung von KI-Modellen ausgeschöpft haben. Seine Warnung ist der neueste Kommentar zur Notwendigkeit neuer Datenquellen, wenn KI ihre schnelle Entwicklung fortsetzen soll. In Branchen wie Gesundheitswesen und Finanzen verschärfen strenge Datenschutzbestimmungen den Mangel an Daten noch mehr.

Während synthetische Daten – eine mögliche Lösung für diesen Mangel – nicht neu sind, wächst ihre Bedeutung weiter, wie die jüngsten Wellen von Fusionen und Investitionen in diesem Bereich zeigen. Es gibt jedoch einige tiefere Unsicherheiten über die Verwendung von synthetischen Daten, insbesondere das Risiko eines Modellkollaps, bei dem die Qualität der Ausgabe eines multimodalen Large-Language-Modells (LLM) ohne reale Welt-Daten zur Ausbildung verschlechtert. Ob dieses Problem unlösbar oder lösbar ist, kann einen erheblichen Einfluss auf die Zukunft von generativer KI (Gen AI) haben.

Was sind synthetische Daten und wie werden sie erstellt?

Synthetische Daten werden künstlich erstellt und nicht aus realen Ereignissen gesammelt. AI-erzeugte synthetische Daten sind jetzt die weit verbreitetste Form, die darin besteht, Modelle auf realen Welt-Daten zu trainieren, um Muster und Korrelationen zu erkennen, und dann neue Daten zu erzeugen, die diese statistischen Eigenschaften nachahmen.

LLMs werden verwendet, um verschiedene Arten von synthetischen Daten zu erzeugen, einschließlich strukturierter Daten wie tabellarischen Daten und unstrukturierter Daten wie freien Texten, Videos und Bildern. Eine Reihe von Methoden wird je nach Art der erzeugten Daten verwendet.

Zum Beispiel werden zwei gängige Methoden zur Erzeugung von synthetischen Bild-Daten eingesetzt: GANs und Diffusionsmodelle. GANs verwenden zwei neuronale Netze: Ein Generator erzeugt künstliche Versionen von realen Daten, während ein Diskriminator feststellt, welche real und welche erzeugt sind. Durch kontinuierliche Zusammenarbeit versucht der Generator, den Diskriminator zu “täuschen”, und verbessert kontinuierlich die Realistik und Vielfalt der künstlichen Daten. Diffusionsmodelle verwenden einen anderen Ansatz, indem sie lernen, reale Daten zu verzerren und dann diesen Prozess umzukehren, um sie zu “entrauschen”. Sobald sie effektiv trainiert sind, können sie hochwertige synthetische Audio- und Video-Daten erzeugen.

Die wachsende Bedeutung von synthetischen Daten

Es hat bereits seit längerem Interesse an synthetischen Daten gegeben. In den letzten 5 Jahren hat jedoch die schnelle Entwicklung von LLMs die Nachfrage nach synthetischen Daten erhöht und gleichzeitig eine effektivere Möglichkeit zur Erzeugung von synthetischen Daten im großen Maßstab geschaffen. Als Ergebnis ist der Einsatz von synthetischen Daten stark angestiegen.

Laut Gartner werden synthetische Daten bis 2024 60% aller Daten ausmachen, die für die Ausbildung von LLMs verwendet werden, gegenüber nur 1% im Jahr 2021. Es gibt jeden Grund zu der Annahme, dass diese Schätzung im Wesentlichen genau ist. Zum Beispiel wurde Microsofts Phi-4-Modell, das andere LLMs übertrifft, obwohl es viel kleiner ist, erfolgreich mit überwiegend synthetischen Daten trainiert. Währenddessen erkunden die Ingenieure von Amazons Alexa die Verwendung eines “Lehrer/Schüler”-Modells, bei dem das “Lehrer”-Modell synthetische Daten erzeugt, die dann verwendet werden, um ein kleineres “Schüler”-Modell fein zu justieren.

Diese weit verbreitete Akzeptanz wird durch große Bewegungen auf dem Markt widergespiegelt. Der synthetische Daten-Sektor erlebte 2021-22 einen Investitionsboom. Gretel AI und Tonic.ai sicherten sich Series-B-Runden in Höhe von 50 Millionen bzw. 35 Millionen Dollar. Diese wurden von MOSTLY AI mit einem Series-B-Runden in Höhe von 25 Millionen Dollar und Synthesis AI mit 17 Millionen Dollar in Series-A-Finanzierung gefolgt.

In jüngerer Zeit hat sich der Trend hin zu großen Akquisitionen entwickelt. NVIDIAs Übernahme von Gretel in diesem Frühjahr wird die Arbeit des Technologie-Giganten in diesem Bereich unterstützen. Ebenso erwarb das AI-Lösungs-Unternehmen SAS das synthetische Daten-Startup Hazy im November 2024.

Die Analyse-Firma Cognilytica schätzte den Markt für die Erzeugung von synthetischen Daten im Jahr 2021 auf etwa 110 Millionen Dollar. Das Unternehmen geht davon aus, dass er bis 2027 auf 1,15 Milliarden Dollar anwachsen wird. Andere Prognosen erwarten ein jährliches Wachstum von 31% für den Sektor, da er bis 2030 auf 2,33 Milliarden Dollar an Wert anwachsen wird.

Modellkollaps

Jedoch kommt das aufregende Potenzial von synthetischen Daten mit einer erheblichen Nachteiligkeit: Modellkollaps. Dies ist ein Phänomen, bei dem LLMs, die ausschließlich mit synthetischen Daten trainiert werden, weniger präzise oder weniger vielfältige Ausgaben produzieren.

Während reale Welt-Daten tendenziell komplex sind, werden synthetische Daten oft von Modellen vereinfacht und kondensiert. Zum Beispiel fanden Forscher heraus, dass die Genauigkeit eines Modells, das darauf trainiert war, krebsartige Muttermale auf Fotografien zu erkennen, umgekehrt proportional zur Menge der synthetischen Trainingsdaten war. Eine aktuelle Studie von Akademikern aus Oxford, Cambridge, Imperial College und der University of Toronto fand heraus, dass die Verwendung von modellgenerierten Daten ohne Unterscheidung zu “irreversiblen Defekten im resultierenden Modell” führte.

Schlimmer noch, die meisten LLMs sind “Black Boxes”, was es schwierig macht, zu verstehen, wie sie auf synthetische Daten reagieren werden. Forscher von der Rice University und Stanford kamen zu dem Schluss, dass ohne einige frische reale Welt-Daten “zukünftige generative Modelle dazu verurteilt sind, ihre Qualität (Präzision) oder Vielfalt (Abfrage) fortschreitend abzunehmen”.

Die anhaltende Notwendigkeit von realen Welt-Daten

Offensichtlich bleibt auch mit dem Anstieg der Nachfrage nach synthetischen Daten die Notwendigkeit von realen Welt-Daten bestehen. Tatsächlich kann die Nachfrage nach hochwertigen realen Welt-Daten sogar zunehmen. Der Grund dafür ist zweifach. Erstens werden reale Welt-Daten immer benötigt, um die KI-Modelle zu trainieren, die dann synthetische Daten erzeugen. Und zweitens ist es notwendig, synthetische Daten kontinuierlich mit realen Welt-Daten zu synchronisieren, um Modellkollaps zu vermeiden.

Reale Daten für die Ausbildung von synthetischen-Daten erzeugenden KI-Modellen

Wie bereits erwähnt, werden die meisten synthetischen Daten heute mit Gen AI erstellt. Und diese Gen-AI-Modelle müssen auf realen Welt-Daten trainiert werden, um verwendbare synthetische Daten zu erzeugen. Das liegt daran, dass sie nur synthetische Daten erzeugen können, indem sie die Muster und statistischen Eigenschaften eines realen Welt-Datensatzes replizieren.

Betrachten Sie das jüngste Beispiel eines Versicherungsunternehmens, das synthetische Daten verwenden konnte, um verschiedene Anbieter zu testen, ohne seine sensiblen Kundendaten zu gefährden. Um diesen synthetischen Datensatz zu erzeugen, der die Realität genau nachahmte, musste es seine eigenen realen Welt-Daten verwenden, um das KI-Modell zu trainieren, das dann die synthetischen Daten erzeugte.

Reale Daten zur Vermeidung von Modellkollaps

Es gibt mehrere Strategien, um das Risiko von Modellkollaps zu mindern. Dazu gehören die Validierung und regelmäßige Überprüfung von synthetischen Datensätzen sowie die Überprüfung der Qualität von synthetischen Daten, bevor sie in generativen Modellen verwendet werden. Die gängigste Methode ist jedoch, die verwendeten Daten zu diversifizieren, indem synthetische Daten mit menschlichen Daten kombiniert werden. Gartners Umfrage ergab, dass 63% der Befragten die Verwendung eines teilweise synthetischen Datensatzes bevorzugen, während nur 13% angaben, sie verwenden vollständig synthetische Daten.

Auch die Hinzufügung geringer Mengen realer Welt-Daten kann die Leistung eines Modells erheblich verbessern. Forscher der University of South California fanden heraus, dass Unternehmen bis zu 90% ihrer realen Daten durch synthetische Daten ersetzen können, ohne eine wesentliche Leistungsverschlechterung zu erleben. Die Ersetzung der letzten 10% der menschlichen Daten führt jedoch zu einem erheblichen Leistungsabfall.

Die Qualität zählt auch, wie das Beispiel von Microsofts Erfolg mit Phi-4 zeigt. Dieses LLM wurde mit überwiegend synthetischen Daten trainiert, die von GPT-4o erzeugt wurden. Allerdings waren große Teile der Vor-Ausbildungsdaten – ein allgemeiner Datensatz, der für die erste Ausbildungsphase verwendet wird, bevor ein Modell fein justiert wird – sorgfältig kuratierte, hochwertige reale Welt-Daten, einschließlich Büchern und Forschungsarbeiten.

Potentielle Vorteile, die synthetische Daten bieten können

Wenn synthetische Daten intelligent verwendet und effektiv mit realen Welt-Daten kombiniert werden, haben sie das Potenzial, sechs spezifische Probleme bei der Ausbildung von KI-Modellen zu lösen: Knappheit, Zugänglichkeit, Homogenität, Voreingenommenheit, Datenschutzprobleme und Kosten.

Datenschutz

Da KI-Unternehmen um Marktanteile kämpfen und neue Meilensteine erreichen, steigt die unstillbare Nachfrage nach Daten, um ihre LLMs zu trainieren. Synthetische Daten haben das Potenzial, diese Lücke zu füllen, zumindest laut Gartners Forschung. Es sollte jedoch beachtet werden, dass die Verwendung erheblicher Mengen realer Daten in Vor-Ausbildungs-Datensätzen und zur Synchronisierung, um Modellkollaps zu vermeiden, immer noch erforderlich sein wird.

Zugänglichkeit

Große Technologie-Unternehmen agieren zunehmend als Gatekeeper, wenn es um Daten geht, und schaffen somit eine Barriere für kleinere Spieler. Synthetische Daten haben das Potenzial, die generative KI zu demokratisieren, indem sie große Mengen an Trainingsdaten erschwinglich und zugänglich machen. Dennoch wird dies nicht die Verantwortung der großen Technologie-Unternehmen beseitigen, den Zugang zu realen Welt-Daten zu verbessern, da diese immer noch für die Ausbildung von synthetischen-Daten erzeugenden Modellen benötigt werden.

Homogenität

In einigen Nischen-Anwendungsfällen, wie der Ausbildung von KI für autonomes Fahren, sind reale Welt-Datensätze zu homogen. In solchen Fällen können Entwickler synthetische Daten erzeugen, um Lücken in den Daten für ungewöhnliche Situationen zu füllen. Dies ermöglicht es Modellen, sich auf seltene Vorkommen auf der Straße zu trainieren.

Voreingenommenheit

Einige reale Welt-Datensätze enthalten inhärente Voreingenommenheiten, so dass synthetische Daten erzeugt werden können, um sicherzustellen, dass KI-Modelle ein ausgewogeneres Bild erhalten. Zum Beispiel hat die Financial Conduct Authority (FCA) des Vereinigten Königreichs argumentiert, dass synthetische Daten das Potenzial haben, potenzielle Voreingenommenheiten zu konterkarieren, die durch die Unterrepräsentation bestimmter Gruppen in menschlichen Datensätzen verursacht werden.

Datenschutz

In Branchen wie Gesundheitswesen und Finanzen verschärfen Datenschutzanforderungen den Mangel an Daten. Mit synthetischen Daten können Unternehmen Trainings-Datensätze für ihre Modelle erstellen, die spezielle Daten enthalten, ohne die Privatsphäre der Kunden zu gefährden. Es sollte jedoch beachtet werden, dass eine vom Royal Society in Auftrag gegebene Studie mit Bezug auf synthetische Daten in der medizinischen Forschung festgestellt hat, dass es eine “Fehlvorstellung” ist, synthetische Daten seien “von Natur aus privat”. Wie die Forscher betonen, kann synthetische Daten Informationen über die Daten, aus denen sie abgeleitet wurden, preisgeben.

Insbesondere sind Modelle, die auf sensitiven Daten trainiert werden, anfällig für Modell-Inversions-Angriffe, bei denen Hacker in der Lage sind, Teile des ursprünglichen Datensatzes zu rekonstruieren.

Kosten

Im Allgemeinen werden synthetische Daten zu einem niedrigeren Kosten-Niveau als reale Welt-Daten erzeugt. Sie kommen auch mit Labels, was Zeit und Kosten spart. Bei einigen KI-Trainingsprojekten werden bis zu 80% des Projekts für die Datenpräparation aufgewendet, einschließlich der Kennzeichnung. Dies erklärt, warum spezialisierte Unternehmen entstanden sind, um die günstige Arbeitskraft für die Datenverarbeitungsbedürfnisse der Silicon-Valley-Riesen zu decken.

Die Ergänzung von realen Daten anstatt ihrer Ersetzung

Diese Vorteile von synthetischen Daten können genutzt werden, vorausgesetzt, sie werden nicht als Ersatz für reale Daten behandelt. Stattdessen sollte ihre Rolle darin bestehen, reale Datensätze zu ergänzen und Möglichkeiten zur Erhöhung der Skalierbarkeit der verfügbaren Datenpunkte zu bieten.

Im Kontext wird Metas kommendes LLM, LLAMA Behemoth, mit 30 Billionen Datenpunkten trainiert. Offensichtlich ist es herausfordernd, wenn nicht unmöglich, reale Welt-Daten in diesem Umfang zu finden. Dennoch, wie bereits erwähnt, ist die Verwendung von realen Welt-Daten immer noch erforderlich, sei es für die Ausbildung der Modelle, die synthetische Daten erzeugen, oder für die Synchronisierung mit synthetischen Daten, um Genauigkeit zu gewährleisten und Modellkollaps zu vermeiden. Auf der Skala, auf der LLMs jetzt arbeiten, wird es, selbst wenn synthetische Daten einen wesentlichen Anteil der Trainingsdaten ausmachen, immer noch eine erhebliche Nachfrage nach realen Welt-Daten geben. Und dies bedeutet, dass es komplexere Probleme zu lösen gibt, die mit Gatekeeping, Zugänglichkeit, Voreingenommenheit, Kosten und Zeit verbunden sind.

Seit über 13 Jahren ist Gediminas Rickevicius eine treibende Kraft für Wachstum in marktführenden IT-, Werbe- und Logistikunternehmen auf der ganzen Welt. Er hat den traditionellen Ansatz zur Geschäftsentwicklung und zum Vertrieb durch die Integration von Big Data in die strategische Entscheidungsfindung verändert. Als Senior VP of Global Partnerships bei Oxylabs setzt Gediminas seine Mission fort, Unternehmen mit state-of-the-art-Lösungen für die Erfassung von öffentlichen Webdaten zu stärken.