Vordenker
Open Source im Zeitalter der generativen KI neu denken

Das Open-Source-Modell – ein Ethos der Softwareentwicklung, bei dem Quellcode frei zur öffentlichen Weiterverbreitung oder Modifikation zur Verfügung gestellt wird – ist seit langem ein Katalysator für Innovationen. Das Ideal entstand 1983, als der Softwareentwickler Richard Stallman frustriert war, weil sein Closed-Source-Drucker kaputt war.
Seine Vision war der Auslöser für die Freie-Software-Bewegung und ebnete den Weg für das Open-Source-Ökosystem, das einen Großteil der heutigen Internet- und Softwareinnovationen antreibt.
Aber das ist ĂĽber 40 Jahre her.
Heute verändert die generative KI mit ihren einzigartigen technischen und ethischen Herausforderungen die Bedeutung von „Offenheit“ und erfordert, dass wir das Open-Source-Paradigma überdenken – nicht, um es aufzugeben, sondern um es anzupassen.
KI und die Open-Source-Freiheiten
Die vier Grundfreiheiten von Open-Source-Software – die Fähigkeit, Ausführen, studieren, ändern und weitergeben jeglicher Softwarecode – stehen in mehrfacher Hinsicht im Widerspruch zur Natur der generativen KI:
- Run: KI-Modelle erfordern oft sehr hohe Infrastruktur- und Rechenkosten, die begrenzen Zugang aufgrund von Ressourcenbeschränkungen.
- Studieren und ändern: KI-Modelle sind unglaublich komplex, daher sie zu verstehen und zu verändern ohne Zugriff auf den Code und die ihm zugrunde liegenden Daten ist dies eine erhebliche Herausforderung.
- Umverteilung: Viele KI-Modelle Umverteilung einschränken konzeptionell, insbesondere solche mit trainierten Gewichten und proprietären Datensätzen im Besitz des Plattformanbieters.
Die Erosion dieser Grundprinzipien ist nicht auf böswillige Absichten zurückzuführen, sondern vielmehr auf die schiere Komplexität und die Kosten moderner KI-Systeme. Tatsächlich sind die finanziellen Anforderungen für das Training modernster KI-Modelle in den letzten Jahren dramatisch gestiegen – für OpenAIs GPT-4 entstanden Berichten zufolge Trainingskosten von bis zu 78 Millionen US-Dollar, ohne Personalgehälter, mit Gesamtausgaben mehr als 100 Mio. US$.
Die Komplexität von „Open Source“-KI
Ein wirklich offenes KI-Modell erfordert vollständige Transparenz des Inferenz-Quellcodes, des Trainings-Quellcodes, der Modellgewichte und der Trainingsdaten. Viele als „offen“ gekennzeichnete Modelle geben jedoch nur den Inferenz-Code oder Teilgewichte frei, während andere eingeschränkte Lizenzen anbieten oder die kommerzielle Nutzung gänzlich einschränken.
Diese unparteiische Offenheit erweckt die Illusion von Open-Source-Prinzipien, bleibt in der Praxis jedoch hinter den Erwartungen zurĂĽck.
Bedenken Sie, dass eine Analyse der Open Source Initiative (OSI) ergab, dass mehrere beliebte große Sprachmodelle behauptet, Open Source zu sein – einschließlich Llama2 und Llama 3.x (entwickelt von Meta), Grok (X), Phi-2 (Microsoft) und Mixtral (Mistral AI) – sind strukturell nicht mit Open-Source-Prinzipien kompatibel.
Herausforderungen in Bezug auf Nachhaltigkeit und Anreize
Die meisten Open-Source-Programme wurden auf Basis von Freiwilligenarbeit oder ZuschĂĽssen entwickelt, nicht auf Basis rechenintensiver und teurer Infrastrukturen. KI-Modelle hingegen sind teuer in der Schulung und Wartung, und die Kosten werden voraussichtlich weiter steigen. Dario Amodei, CEO von Anthropic, prognostiziert, dass die Kosten irgendwann bis zu 100 Milliarden Dollar um ein hochmodernes Modell zu trainieren.
Ohne ein nachhaltiges Finanzierungsmodell oder eine Anreizstruktur stehen Entwickler vor der Wahl, entweder den Zugang durch Closed-Source- oder nichtkommerzielle Lizenzen einzuschränken oder einen finanziellen Zusammenbruch zu riskieren.
Missverständnisse rund um „offene Gewichte“ und Lizenzierung
Die Zugänglichkeit von KI-Modellen ist zunehmend unübersichtlich geworden. Viele Plattformen vermarkten sich als „offen“, verhängen aber Einschränkungen, die den wahren Open-Source-Prinzipien grundsätzlich widersprechen. Dieser Taschenspielertrick manifestiert sich auf vielfältige Weise:
- Bei Modellen mit der Bezeichnung „offene Gewichte“ ist eine kommerzielle Nutzung möglicherweise völlig ausgeschlossen, sodass sie eher als akademische Kuriositäten denn als praktische Geschäftstools für die Öffentlichkeit zur Erforschung und Entwicklung erhalten bleiben.
- Einige Anbieter bieten Zugriff auf vortrainierte Modelle, schützen ihre Trainingsdatensätze und -methoden jedoch streng, sodass es unmöglich ist, ihre Ergebnisse sinnvoll zu reproduzieren oder zu überprüfen.
- Viele Plattformen erlegen Weiterverteilungsbeschränkungen auf, die Entwickler daran hindern, die Modelle für ihre Communities weiterzuentwickeln oder zu verbessern, selbst wenn sie vollen „Zugriff“ auf den Code haben.
In diesen Fällen ist „für Forschungszwecke geöffnet“ lediglich eine Doppelzüngigkeit gegenüber „für geschäftliche Zwecke geschlossen“. Das Ergebnis ist eine unredliche Form der Anbieterbindung: Unternehmen investieren Zeit und Ressourcen in Plattformen, die scheinbar frei zugänglich sind, entdecken dann aber bei der Skalierung oder Kommerzialisierung der Anwendungen kritische Einschränkungen.
Die daraus resultierende Verwirrung frustriert nicht nur die Entwickler. Sie untergräbt aktiv das Vertrauen in das KI-Ökosystem. Sie weckt unrealistische Erwartungen bei den Beteiligten, die vernünftigerweise davon ausgehen, dass „offene“ KI mit Open-Source-Software-Communitys vergleichbar ist, in denen Transparenz, Änderungsrechte und kommerzielle Freiheit gewahrt werden.
Rechtliche Verzögerung
Die rasante Weiterentwicklung von GenAI lässt bereits die Entwicklung entsprechender rechtlicher Rahmenbedingungen hinter sich und schafft ein komplexes Netz von Herausforderungen im Bereich des geistigen Eigentums, die bereits bestehende Bedenken noch verstärken.
Der erste große juristische Streitpunkt dreht sich um die Verwendung von Trainingsdaten. Deep-Learning-Modelle beziehen große Datensätze aus dem Internet, beispielsweise öffentlich zugängliche Bilder und Webseitentexte. Diese massive Datensammlung hat heftige Debatten über geistige Eigentumsrechte ausgelöst. Technologieunternehmen argumentieren, ihre KI-Systeme würden urheberrechtlich geschütztes Material studieren und daraus lernen, um neue, bahnbrechende Inhalte zu schaffen. Urheberrechtsinhaber hingegen behaupten, diese KI-Unternehmen würden ihre Werke unrechtmäßig kopieren und so konkurrierende Inhalte erzeugen, die ihre Existenzgrundlage bedrohen.
Die Eigentumsverhältnisse an KI-generierten abgeleiteten Werken stellen eine weitere rechtliche Unklarheit dar. Niemand ist sich ganz sicher, wie KI-generierte Inhalte zu klassifizieren sind, mit Ausnahme des US Copyright Office, das feststellt: „Wenn KI Inhalte vollständig generiert, können diese nicht urheberrechtlich geschützt werden.“
Die rechtliche Unsicherheit rund um GenAI – insbesondere hinsichtlich Urheberrechtsverletzungen, Eigentumsrechten an KI-generierten Werken und nicht lizenzierten Inhalten in Trainingsdaten – wird noch brisanter, da sich grundlegende KI-Modelle als Werkzeuge von geopolitischer Bedeutung erweisen: Nationen, die um die Entwicklung überlegener KI-Fähigkeiten wetteifern, sind möglicherweise weniger geneigt, den Datenzugriff einzuschränken, wodurch Länder mit strengerem IP-Schutz in einen Wettbewerbsnachteil geraten.
Was Open Source im KI-Zeitalter werden muss
Der GenAI-Zug hat den Bahnhof bereits verlassen und zeigt keine Anzeichen einer Verlangsamung. Wir hoffen auf eine Zukunft, in der KI Innovationen fördert, anstatt sie zu ersticken. Dafür benötigen Technologieführer einen Rahmen, der eine sichere und transparente kommerzielle Nutzung gewährleistet, verantwortungsvolle Innovationen fördert, Dateneigentum und -lizenzierung regelt und zwischen „offen“ und „frei“ unterscheidet.
Ein aufkommendes Konzept, das Open Commercial Source-Lizenz, kann einen Weg nach vorne bieten, indem es kostenlosen Zugang für nichtkommerzielle Nutzung, lizenzierten Zugang für kommerzielle Nutzung sowie die Anerkennung und Achtung der Herkunft und des Eigentums an Daten vorschlägt.​​
Um sich an diese neue Realität anzupassen, muss die Open-Source-Community KI-spezifische offene Lizenzmodelle entwickeln, öffentlich-private Partnerschaften zur Finanzierung dieser Modelle bilden und vertrauenswürdige Standards für Transparenz, Sicherheit und Ethik etablieren.
Open Source hat die Welt verändert. Generative KI verändert sie erneut. Um den Geist der Offenheit zu bewahren, müssen wir den Wortlaut des Gesetzes weiterentwickeln, die einzigartigen Anforderungen der KI anerkennen und gleichzeitig die Herausforderungen direkt angehen, um ein integratives und nachhaltiges Ökosystem zu schaffen.