Künstliche Intelligenz
KI-basierte Modelle des generativen Schreibens nutzen häufig das „Kopieren und Einfügen“ von Quelldaten

Der amerikanische Dramatiker und Unternehmer Wilson Mizner wird oft mit den berühmten Worten zitiert: „Wenn man von einem Autor stiehlt, ist das Plagiat; wenn man von vielen stiehlt, ist es Recherche.“
Ebenso die Annahme um die neue Generation von KI-basierten kreativen Schreibsystemen ist, dass die Unmengen an Daten Die ihnen in der Ausbildungsphase vermittelten Informationen haben zu einem echten Ergebnis geführt Abstraktion von Konzepten und Ideen auf hohem Niveau; dass diesen Systemen das destillierte Wissen Tausender beitragender Autoren zur Verfügung steht, aus dem die KI innovative und originelle Texte formulieren kann; und dass diejenigen, die solche Systeme verwenden, sicher sein können, dass sie nicht versehentlich einem Stellvertreter-Plagiat unterliegen.
Diese Annahme wird durch ein neues Papier eines Forschungskonsortiums (darunter auch die KI-Forschungsabteilungen von Facebook und Microsoft) in Frage gestellt. Darin wurde festgestellt, dass generative Sprachmodelle für maschinelles Lernen wie die GPT-Reihe „gelegentlich auch sehr lange Passagen kopieren“ ohne Namensnennung in ihre vermeintlich ursprüngliche Ausgabe übernommen.
In einigen Fällen, so die Autoren, dupliziert GPT-2 in seiner Ausgabe über 1,000 Wörter aus dem Trainingssatz.
Das Krepppapier ist betitelt Wie viel kopieren Sprachmodelle aus ihren Trainingsdaten? Bewertung der sprachlichen Neuheit bei der Textgenerierung mit RAVENund ist eine Zusammenarbeit zwischen der Johns Hopkins University, Microsoft Research, der New York University und Facebook AI Research.
RAVEN
Die Studie verwendet einen neuen Ansatz namens RAVEN (RAtingVERbalNovelty), ein Akronym, das auf unterhaltsame Weise gefoltert wurde, um den Vogelschurken eines klassischen Gedichts widerzuspiegeln:
„Dieses Akronym bezieht sich auf „The Raven“ von Edgar Allan Poe, in dem der Erzähler auf einen geheimnisvollen Raben trifft, der immer wieder „Nevermore!“ schreit. Der Erzähler kann nicht sagen, ob der Rabe einfach etwas wiederholt, was er von einem Menschen gehört hat, oder ob er seine eigenen Äußerungen konstruiert (vielleicht durch Kombination). niemals sowie mehr) – dieselbe grundlegende Mehrdeutigkeit, die in unserem Artikel behandelt wird.“
Die Ergebnisse des neuen Artikels stehen im Kontext des starken Wachstums von KI-Systemen zur Inhaltserstellung, die einfache Bearbeitungsaufgaben übernehmen und sogar vollständige Inhalte schreiben sollen. Ein solches System erhielt $ 21 Millionen in der Serie-A-Finanzierung Anfang dieser Woche.
Die Forscher stellen fest, dass „GPT-2 dupliziert manchmal Trainingspassagen, die vorhanden sind.“ über 1,000 Wörter lang.' (ihre Betonung) und dass generative Sprachsysteme sprachliche Fehler in den Quelldaten verbreiten.
Die unter RAVEN untersuchten Sprachmodelle waren die GPT-Versionsreihe bis GPT-2 (die Autoren hatten zu diesem Zeitpunkt keinen Zugriff auf GPT-3), ein Transformer, Transformer-XL und ein LSTM.
Neuheit
Das Papier stellt fest, dass GPT-2 Beugungen im Bush-2-Stil prägt, wie z „Verschweizert“und Ableitungen wie „IKEA-haftigkeit“, wodurch solche neuen Wörter (sie erscheinen nicht in den Trainingsdaten von GPT-2) auf der Grundlage linguistischer Prinzipien erstellt werden, die aus höherdimensionalen Räumen abgeleitet werden, die während des Trainings erstellt wurden.
Die Ergebnisse zeigen auch, dass „74 % der von Transformer-XL generierten Sätze eine syntaktische Struktur haben, die kein Trainingssatz hat“, was, wie die Autoren feststellen, darauf hindeutet, „Neuronale Sprachmodelle lernen nicht einfach auswendig, sondern nutzen produktive Prozesse, die es ihnen ermöglichen, bekannte Teile auf neue Weise zu kombinieren.“
Technisch gesehen also die Verallgemeinerung und Abstraktion sollte innovative und neuartige Texte produzieren.
Datenduplizierung kann das Problem sein
Das Papier geht von der Theorie aus, dass lange und wörtliche Zitate, die von Systemen zur natürlichen Sprachgenerierung (NLG) erstellt werden, vollständig in das KI-Modell „eingebacken“ werden könnten, da der ursprüngliche Quelltext in Datensätzen, die nicht ausreichend dedupliziert wurden, mehrfach wiederholt wird.
Obwohl ein weiteres Forschungsprojekt hat herausgefunden, dass es zu einer vollständigen Verdoppelung des Textes kommen kann, selbst wenn der Quelltext nur erscheint einmal Im Datensatz stellen die Autoren fest, dass das Projekt andere konzeptionelle Architekturen aufweist als die üblichen inhaltsgenerierenden KI-Systeme.
Die Autoren stellen außerdem fest, dass eine Änderung der Decodierungskomponente in Sprachgenerierungssystemen die Neuheit erhöhen könnte, stellten jedoch in Tests fest, dass dies auf Kosten der Qualität der Ausgabe geschieht.
Weitere Probleme treten auf, da die Datensätze, die die Algorithmen zur Inhaltsgenerierung antreiben, immer größer werden. Neben der Verschärfung der Probleme im Zusammenhang mit der Erschwinglichkeit und Durchführbarkeit der Datenvorverarbeitung sowie der Qualitätssicherung und Deduplizierung der Daten, Viele grundlegende Fehler bleiben bestehen in Quelldaten, die dann in den von der KI ausgegebenen Inhalten weitergegeben werden.
Die Autoren bemerken*:
„Aufgrund der jüngsten Zunahme der Größe von Trainingssätzen ist es besonders wichtig, nach Neuheiten zu suchen, da die Größe dieser Trainingssätze unsere Vorstellungen darüber, was auf natürliche Weise zu erwarten ist, zerstören kann.“ Zum Beispiel einige bemerkenswerte Arbeiten in Sprache Erwerb beruht auf der Annahme, dass regelmäßige Vergangenheitsformen unregelmäßiger Verben (z. B. „werdet“, „gelehrt“) in der Erfahrung eines Lernenden nicht vorkommen. Wenn ein Lernender also solche Wörter produziert, müssen sie für den Lernenden neu sein.
„Es stellt sich jedoch heraus, dass für alle 92 grundlegenden unregelmäßigen Verben im Englischen die falsche regelmäßige Form im Trainingssatz von GPT-2 erscheint.“
Mehr Datenkuration erforderlich
In dem Artikel wird behauptet, dass bei der Formulierung generativer Sprachsysteme mehr Wert auf Neuheit gelegt werden muss. Dabei ist insbesondere darauf zu achten, dass der „zurückgehaltene“ Testteil der Daten (der Teil der Quelldaten, der für die Prüfung reserviert ist, wie gut der endgültige Algorithmus den Hauptteil der trainierten Daten bewertet hat) für die Aufgabe geeignet ist.
„Beim maschinellen Lernen ist es entscheidend, Modelle anhand eines zurückgehaltenen Testdatensatzes zu bewerten. Aufgrund der offenen Natur der Textgenerierung kann der von einem Modell generierte Text aus dem Trainingsdatensatz kopiert werden. In diesem Fall wird er nicht zurückgehalten. Daher ist die Verwendung dieser Daten zur Bewertung des Modells (z. B. hinsichtlich Kohärenz oder Grammatikalität) nicht zulässig.“
Die Autoren behaupten außerdem, dass bei der Erstellung von Sprachmodellen aufgrund der … auch mehr Sorgfalt erforderlich sei Eliza-Effekt, ein 1966 identifiziertes Syndrom, das identifiziert wurde „Die Empfänglichkeit von Menschen, in von Computern aneinandergereihten Zeichenketten – insbesondere Wörtern – weitaus mehr Verständnis zu erkennen, als erforderlich ist.“.
* Meine Umwandlung von Inline-Zitaten in Hyperlinks