Connect with us

Die Wahrheit über synthetische Daten: Warum menschliche Expertise für den Erfolg von LLM entscheidend ist

Vordenker

Die Wahrheit über synthetische Daten: Warum menschliche Expertise für den Erfolg von LLM entscheidend ist

mm

LLM-Entwickler greifen zunehmend auf synthetische Daten zurück, um die Entwicklung zu beschleunigen und Kosten zu reduzieren. Forscher hinter mehreren Top-Modellen wie LLama 3, Qwen 2 und DeepSeek R1 haben in ihren Forschungsarbeiten erwähnt, synthetische Daten zur Ausbildung ihrer Modelle zu verwenden. Von außen betrachtet, scheint dies die perfekte Lösung zu sein: ein unerschöpflicher Informationsquell, um die Entwicklung zu beschleunigen und Kosten zu senken. Doch diese Lösung hat einen versteckten Preis, den Geschäftsführer nicht ignorieren können.

In einfachen Worten ist synthetische Daten von KI-Modellen generiert, um künstliche Datensätze für die Ausbildung, Feinabstimmung und Bewertung von LLMs und KI-Agenten zu erstellen. Im Vergleich zur traditionellen menschlichen Annotation ermöglicht es die Datenpipeline, sich schnell zu skalieren, was im schnellen und wettbewerbsintensiven Umfeld der KI-Entwicklung unerlässlich ist.

Unternehmen haben möglicherweise andere Gründe, “falsche” Daten zu verwenden, wie zum Beispiel den Schutz sensibler oder vertraulicher Informationen in Finanz- oder Gesundheitseinrichtungen durch die Generierung anonymisierter Versionen. Synthetische Daten sind auch ein guter Ersatz, wenn proprietäre Daten nicht verfügbar sind, wie zum Beispiel vor der Markteinführung eines Produkts oder wenn die Daten externen Kunden gehören.

Aber revolutioniert synthetische Daten die KI-Entwicklung? Die kurze Antwort ist ein qualifiziertes Ja: Sie haben großes Potenzial, können aber auch LLMs und Agenten kritischen Schwachstellen aussetzen, wenn sie nicht sorgfältig von Menschen überwacht werden. LLM-Produzenten und KI-Agenten-Entwickler können feststellen, dass KI-Modelle, die mit unzureichend geprüften synthetischen Daten ausgebildet werden, ungenaue oder voreingenommene Ausgaben erzeugen, Reputationskrisen verursachen und zu einer Nichteinhaltung von Branchen- und ethischen Standards führen. Die Investition in menschliche Überwachung, um synthetische Daten zu verfeinern, ist eine direkte Investition in den Schutz des Unternehmens, die Aufrechterhaltung des Vertrauens der Stakeholder und die Gewährleistung einer verantwortungsvollen KI-Einführung.

Mit menschlicher Eingabe können synthetische Daten in hochwertige Trainingsdaten umgewandelt werden. Es gibt drei entscheidende Gründe, um generierte Daten vor ihrer Verwendung zur Ausbildung von KI zu verfeinern: um Lücken im Wissen der Quell-Modelle zu füllen, um die Datenqualität zu verbessern und die Stichprobengröße zu reduzieren und um sie mit menschlichen Werten in Einklang zu bringen.

Wir müssen einzigartiges Wissen erfassen

Synthetische Daten werden in erster Linie von LLMs generiert, die auf öffentlich zugänglichen Internetquellen ausgebildet wurden, was eine inhärente Einschränkung mit sich bringt. Öffentliche Inhalte erfassen selten das praktische, handwerkliche Wissen, das in der realen Welt verwendet wird. Aktivitäten wie die Gestaltung einer Marketing-Kampagne, die Erstellung einer Finanzprognose oder die Durchführung einer Marktanalyse werden typischerweise privat und nicht online dokumentiert. Darüber hinaus spiegeln die Quellen tendenziell US-zentrische Sprache und Kultur wider, was die globale Repräsentation einschränkt.

Um diese Einschränkungen zu überwinden, können wir Experten einbeziehen, um Datenproben in Bereichen zu erstellen, die wir vermuten, dass das synthetische Daten-Generierungsmodell nicht abdecken kann. Wenn wir beispielsweise wollen, dass unser Endmodell Finanzprognosen und Marktanalyse effektiv handhaben kann, müssen die Trainingsdaten realistische Aufgaben aus diesen Bereichen enthalten. Es ist wichtig, diese Lücken zu identifizieren und synthetische Daten mit von Experten erstellten Proben zu ergänzen.

Experten sind oft frühzeitig in das Projekt involviert, um den Umfang der Arbeit zu definieren. Dazu gehört die Erstellung einer Taxonomie, die die spezifischen Bereiche des Wissens umreißt, in denen das Modell performen muss. Zum Beispiel kann in der Gesundheitsbranche die allgemeine Medizin in Unterthemen wie Ernährung, Herzgesundheit, Allergien und mehr unterteilt werden. Ein gesundheitsorientiertes Modell muss in allen Unterbereichen, die es abdecken soll, ausgebildet werden. Nachdem die Taxonomie von Gesundheitsexperten definiert wurde, können LLMs verwendet werden, um schnell und im großen Maßstab Datapunkte mit typischen Fragen und Antworten zu generieren. Menschliche Experten sind jedoch immer noch erforderlich, um diesen Inhalt zu überprüfen, zu korrigieren und zu verbessern, um sicherzustellen, dass er nicht nur genau, sondern auch sicher und kontextuell angemessen ist. Dieser Qualitätsicherungsprozess ist in hochrisiken Anwendungen wie der Gesundheitsbranche notwendig, um die DatenGenauigkeit zu gewährleisten und möglichen Schaden zu minimieren.

Qualität vor Quantität: Modell-Effizienz durch weniger, bessere Proben

Wenn Domänen-Experten Daten für die Ausbildung von LLMs und KI-Agenten erstellen, erstellen sie Taxonomien für Datensätze, schreiben Prompts, erstellen ideale Antworten oder simulieren eine bestimmte Aufgabe. Alle Schritte sind sorgfältig darauf ausgelegt, dem Modellzweck zu entsprechen, und die Qualität wird durch Fachleute in den entsprechenden Bereichen sichergestellt.

Die synthetische Daten-Generierung repliziert diesen Prozess nicht vollständig. Sie verlässt sich auf die Stärken des zugrunde liegenden Modells, das zur Daten-Erstellung verwendet wird, und die resultierende Qualität ist oft nicht mit der von menschlich kuratierten Daten vergleichbar. Dies bedeutet, dass synthetische Daten oft größere Mengen erfordern, um zufriedenstellende Ergebnisse zu erzielen, was die Rechenkosten und die Entwicklungszeit in die Höhe treibt.

In komplexen Domänen gibt es Nuancen, die nur menschliche Experten erkennen können, insbesondere bei Ausreißern oder Randfällen. Menschlich kuratierte Daten liefern konsistent bessere Modellleistungen, sogar mit deutlich kleineren Datensätzen. Durch die strategische Einbindung menschlicher Expertise in den Daten-Erstellungsprozess können wir die Anzahl der Proben reduzieren, die für die effektive Leistung des Modells erforderlich sind.

In unserer Erfahrung ist der beste Weg, um diese Herausforderung anzugehen, die Einbeziehung von Fachleuten in die Erstellung synthetischer Datensätze. Wenn Experten die Regeln für die Daten-Generierung definieren, Daten-Taxonomien erstellen und die generierten Daten überprüfen oder korrigieren, ist die endgültige Qualität der Daten viel höher. Dieser Ansatz hat es unseren Kunden ermöglicht, starke Ergebnisse mit weniger Datenproben zu erzielen, was zu einem schnelleren und effizienteren Weg zur Produktion geführt hat.

Vertrauensaufbau: die unersetzliche Rolle der Menschen in der KI-Sicherheit und -Ausrichtung

Automatisierte Systeme können nicht alle Schwachstellen vorhersehen oder die Einhaltung menschlicher Werte gewährleisten, insbesondere in Randfällen und mehrdeutigen Szenarien. Fachleute spielen eine entscheidende Rolle bei der Identifizierung von Risiken und der Gewährleistung ethischer Ergebnisse vor der Bereitstellung. Dies ist ein Schutz, den KI, zumindest vorerst, nicht vollständig selbst bieten kann.

Daher reicht synthetische Daten allein nicht aus, um ein starkes Red-Teaming-Datenset zu erstellen. Es ist wichtig, Sicherheitsexperten frühzeitig in den Prozess einzubeziehen. Sie können helfen, die Arten von potenziellen Angriffen zu kartieren und die Struktur des Datensatzes zu leiten. LLMs können dann verwendet werden, um eine hohe Anzahl von Beispielen zu generieren. Anschließend sind Experten erforderlich, um die Daten zu überprüfen und zu verfeinern, um sicherzustellen, dass sie realistisch, hochwertig und nützlich für die Tests von KI-Systemen sind. Zum Beispiel kann ein LLM Tausende von Standard-Hacking-Prompts generieren, aber ein menschlicher Sicherheitsexperte kann neuartige “Social-Engineering”-Angriffe erstellen, die nuancierte psychologische Vorurteile ausnutzen – eine kreative Bedrohung, die automatisierte Systeme Schwierigkeiten haben, selbst zu erfinden.

Es hat bedeutende Fortschritte in der Ausrichtung von LLMs mit automatisierter Rückmeldung gegeben. In dem Paper RLAIF vs. RLHF: Scaling Reinforcement Learning from Human Feedback with AI Feedback zeigen Forscher, dass AI-basierte Ausrichtung in vielen Fällen mit menschlicher Rückmeldung vergleichbar ist. Allerdings kämpft RLAIF, während sich die Modelle verbessern, in komplexen Domänen und mit Randfällen oder Ausreißern, Bereichen, in denen die Leistung je nach Anwendung kritisch sein kann. Menschliche Experten sind effektiver bei der Behandlung von Aufgaben-Nuancen und Kontext, was sie zuverlässiger für die Ausrichtung macht.

KI-Agenten profitieren auch von automatisierten Tests, um ein breites Spektrum von Sicherheitsrisiken anzugehen. Virtuelle Testumgebungen verwenden generierte Daten, um Agenten-Verhaltensweisen wie die Interaktion mit Online-Tools und die Ausführung von Aktionen auf Websites zu simulieren. Um die Testabdeckung in realistischen Szenarien zu maximieren, ist menschliche Expertise integral für die Gestaltung von Testfällen, die Überprüfung der Ergebnisse von automatisierten Bewertungen und die Meldung von Schwachstellen.

Die Zukunft der synthetischen Daten

Synthetische Daten sind eine sehr wertvolle Technik für die Entwicklung von Large-Language-Modellen, insbesondere wenn Skalierbarkeit und schnelle Bereitstellung kritisch in der heutigen schnelllebigen Landschaft sind. Während es keine grundlegenden Mängel in synthetischen Daten selbst gibt, erfordert es eine Verfeinerung, um sein volles Potenzial zu erreichen und den größten Wert zu liefern. Ein hybrider Ansatz, der die automatisierte Daten-Generierung mit menschlicher Expertise kombiniert, ist eine sehr effektive Methode für die Entwicklung leistungsfähiger und zuverlässiger Modelle, da die Endleistung des Modells mehr von der Datenqualität als von der Gesamtmenge abhängt. Dieser integrierte Prozess, der AI für die Skalierung und menschliche Experten für die Validierung nutzt, produziert leistungsfähigere Modelle mit verbesserter Sicherheits-Ausrichtung, was für den Aufbau von Nutzer-Vertrauen und die Gewährleistung einer verantwortungsvollen KI-Einführung unerlässlich ist.

Ilya Kochik ist der Vice President of Business Development bei Toloka, einem menschlichen Datenpartner für führende GenAI-Forschungslabore, wo er sich auf hochmoderne Aufgaben für Grenzmodell- und agentische Systeme spezialisiert hat. Mit Sitz in London umfasst sein Hintergrund Führungs- und technische Rollen bei Google, QuantumBlack (AI by McKinsey) und Bain & Company.