Andersons Blickwinkel
Identifizierung von AI-Modell-Diebstahl durch geheime Tracking-Daten

Ein neues Verfahren kann ChatGPT-ähnliche Modelle in Sekundenschnelle ohne Neuschulung geheim mit einer Wasserzeichen versehen, ohne dass dies in der allgemeinen Ausgabe erkennbar ist und alle möglichen Entfernungsversuche übersteht.
Der feine Unterschied zwischen Wasserzeichen und “Urheberrechts-Köder” besteht darin, dass Wasserzeichen – ob offensichtlich oder versteckt – normalerweise darauf abzielen, in einer Sammlung (wie einem Bild-Datensatz) als allgegenwärtige Barriere gegen das ungehinderte Kopieren zu erscheinen.
Im Gegensatz dazu ist ein fingierter Eintrag ein kleiner Textabschnitt, normalerweise ein Wort oder eine Definition, die in einer großen und relativ generischen Sammlung enthalten sind, um den Diebstahl zu beweisen. Die Idee dahinter ist, dass, wenn die gesamte Arbeit unrechtmäßig kopiert wird, entweder in sich selbst oder als Grundlage für ein abgeleitetes Werk, die Anwesenheit eines “einzigartigen” und gefälschten Fakts, der von den ursprünglichen Besitzern gepflanzt wurde, den Diebstahl leicht enthüllen wird.
In Bezug auf das Hinzufügen von Wasserzeichen zu Large Language Models (LLMs) und Vision Language Models (VLMs) ist der Umfang, in dem die Ausgabe diese verräterischen Zeichen enthalten soll, oft zwischen diesen beiden Zielen aufgeteilt: sicherzustellen, dass alle oder die meisten Ausgaben ein manifestes oder latentes Wasserzeichen enthalten; oder sicherzustellen, dass ein “geheimer Token” wiederhergestellt werden kann, der den Diebstahl beweist – aber der nicht in der regulären Ausgabe des Modells erscheint.
Das Gewicht des Beweises
Der letztere Ansatz wird in einer interessanten neuen Zusammenarbeit zwischen China, Italien und Singapur behandelt; eine Arbeit, die darauf abzielt, ein solches Offenlegungsverfahren für Open-Source-Modelle bereitzustellen, damit diese nicht leicht kommerzialisiert oder auf andere Weise verwendet werden können, die nicht den ursprünglichen Lizenzbedingungen entsprechen.
Zum Beispiel kann die ursprüngliche Lizenz eines Modells vorschreiben, dass jeder von der Arbeit profitieren kann, solange er seine eigenen Änderungen oder Ergänzungen öffentlich verfügbar unter denselben großzügigen Lizenzbedingungen macht – aber ein Unternehmen kann wünschen, seine “Anpassungen” (wie fein abgestimmte Versionen) zu schützen, um eine Schutzmauer zu errichten, wo keine wirklich erlaubt ist.
Der Großteil der Forschung auf diesem Gebiet beschäftigt sich mit Erkennungsroutinen im Zusammenhang mit geschlossenen, API-only-Modellen oder Modellen, für die nur optimierte (quantifizierte) Gewichte verfügbar sind; und die daher schwieriger zu bearbeiten und zu ändern sind, wie das neue Papier vorschlägt (da es keinen direkten Zugriff auf die Architektur des Modells selbst gibt).
Diese Aufmerksamkeit für FOSS-Veröffentlichungen ist vielleicht nicht überraschend aus dem chinesischen Forschungssektor, da Chinas AI-Output in den letzten Jahren durch großzügige Veröffentlichungen von Modellen gekennzeichnet war, die zumindest den mehr “abgeschlossenen” westlichen Äquivalenten entsprechen.
Der neue Ansatz, der EditMark genannt wird, unterscheidet sich dadurch, dass er weder erfordert, dass das Modell für das Hinzufügen der “vergifteten” Daten fein abgestimmt wird, noch dass es von Anfang an mit den Daten trainiert wird.










