Andersons Blickwinkel

Wird künstliche Intelligenz (KI) letztendlich außerhalb der Burgmauer gedeihen?

mm
A cartoon image of a SIMs-style game where a Scottish Laird in his castle is regarding the thriving villagers beyond his moat with puzzlement. GPT-1.5.

Die Kosten und Einschränkungen von Big AI sowie deren Einfluss auf die Hardwarekosten zwingen die Nutzer dazu, eigene Systeme zu bauen – genau wie die zunehmende Regulierung droht, diese “Schatten-KI-Wirtschaft” zu schließen.

 

Meinung Unter den vielen “Gotchas”, die in wissenschaftlichen Forschungsarbeiten auftauchen, ist eine der häufigsten, dass das Problem, das die Arbeit zu lösen versucht, bereits woanders gelöst wurde und dass der Beitrag der neuen Forschung lediglich incidentell oder inkrementell ist.

Dies kann aus verschiedenen Gründen passieren: Die Forscher hofften auf einen Quantensprung, aber bekamen stattdessen einen Quasi-Hop; die früheren Lösungen des Problems waren ressourcenintensiver als das neue Angebot; oder einfach, dass die Ziele des Projekts vollständig fehlgeschlagen sind, aber die “Publizieren-oder-Untergehen”-Kultur der akademischen Forschung die Mannschaft zwang, es dennoch zu veröffentlichen (oft vergraben unter dem Lawinenabgang eines Portals an seinem verkehrsreichsten Veröffentlichungstag).

In der Literatur zum maschinellen Lernen ist jedoch ein relativ neuer und unapologetischer Grund häufiger zu finden: dass die Funktion oder Funktionalität, die angeboten wird, nur derzeit über geschlossene, API-gebundene Portale verfügbar ist.

Ich habe heute Morgen über ein solches Papier nachgedacht – eine Zusammenarbeit zwischen chinesischen Universitäten und Amazon, die das wiederkehrende Problem des Objektentfernungsfehlers in diffusionbasierten Bildbearbeitungssystemen anspricht, die häufig einfach den Zielbereich mit einem ähnlichen Objekt auffüllen anstelle der Entfernung:

Auf der äußersten linken Seite ist das Originalbild; rechts davon die rote Segmentierungsmaske, die der KI sagt, welchen Teil des Bildes zu entfernen ist; als nächstes zeigt “Unser Ansatz” einen erfolgreichen Objektentfernungsansatz – und die beiden verbleibenden Bilder zeigen ähnliche Systeme, die anstelle der Entfernung des Busses einfach einen anderen Bus einfügen. Quelle

Im obigen Beispiel zeigt das mittlere Bild den neuen Ansatz, der erfolgreich den Bus entfernt und einen plausiblen Hintergrund einfügt, im Gegensatz zu den beiden vorherigen Methoden (den beiden linken Bildern), die den Bus entfernen, aber dann einen anderen Bus in das Bild einfügen!

Gotcha!

Wenn man die Warums und Wies des Herausforderungen für eine andere Zeit beiseite legt (und es ist ein interessantes Thema ), dann kam ich auf ein klassisches “Gotcha”, als ich durch das neue Papier las: die Autoren räumen ein, dass teure, proprietäre Systeme diese Aufgabe bereits zuverlässig ausführen können – etwas, das ich aus einigen Jahren Nutzung von Adobe Firefly in Photoshop und anderen geschlossenen Systemen weiß:

‘[Diffusionsbasierte] Methoden halluzinieren oft, indem sie ungewollte Objekte einfügen, nachdem sie die Zielobjekte entfernt haben, was zu kontextuell inkonsistenten [Ergebnissen] führt.

‘Andererseits sind kürzlich veröffentlichte geschlossene Multimodal-Modelle wie ChatGPT und Nano Banana zwar leistungsfähiger bei der Objektentfernung, aber sie erfordern eine große Anzahl von Parametern und einen hohen Rechenaufwand, was ihre praktische Einsetzbarkeit auf Edge-Geräten behindert.

‘Daher ist es notwendig, ein dediziertes Objektentfernungsmodell zu entwickeln, das nicht nur eine überlegene Entfernungsfunktion ermöglicht, sondern auch eine geringe Inferenzverzögerung und deutlich weniger Parameter aufweist.’

Diese Erklärung, die sich auf die technischen Hindernisse konzentriert, lässt die offensichtliche Tatsache außer Acht, dass geschlossene Architekturen wie ChatGPT und Nano Banana überhaupt nicht für die lokale Installation verfügbar sind. Obwohl die Fähigkeit dieser Systeme, umstrittenes Material zu produzieren, in den letzten zwölf Monaten eine öffentliche Rechtfertigung für ihre Gate-Keeping erhalten hat, sind Portale dieser Art hauptsächlich aus kommerziellen Gründen proprietär.

Im Wesentlichen impliziert das neue Papier, dass, obwohl das Zielproblem in kommerziellen Systemen gelöst ist, dies für den Rest von uns möglicherweise irrelevant ist, die lernen müssen, es in der “realen Welt” zu lösen – d. h. in Open-Source-Systemen, unabhängig davon, ob diese realistischerweise lokal installiert werden können oder nicht.

Parallele Entwicklung

Warum jedoch ein Problem lösen, das noch von einem bezahlten System abhängt, nicht wegen proprietärer Einschränkungen, sondern weil die erforderliche GPU-Rechenleistung diejenige übersteigt, die ein lokales Setup realistischerweise aufrechterhalten kann? Die meisten neuen “offenen” Papiere und Code-Repositorys verfügen über Trainings-/Inferenz-Setups mit enormen Ressourcenanforderungen, wie z. B. Cluster von A100s.

Nun, das hängt davon ab, was man glaubt, dass all diese ausstehenden, wirtschaftszerstörenden AI-Rechenzentren erfüllen werden, wenn sie schließlich online gehen. Die Ängste der einfachen Leute und die Hoffnungen der Eliten stellen sich gleichermaßen vor, dass moatierte, proprietäre Systeme wie ChatGPT Arbeitsplätze verdrängen, während sie ständig die Abonnementskosten erhöhen und das Dienstniveau senken, um das frühe VC-Kapital zu befriedigen, das 3-5 Jahre warten musste, um zu operationalisieren.

Es gibt jedoch einen wachsenden Trend in der Literatur, der eine alternative Zukunft unterstützt, und den “go-it-alone”-, marginalen Geist vieler Online-Communities wie dem r/stablediffusion-Subreddit, das derzeit 920.000 Nutzer hat und seit Langem Beiträge zu geschlossenen Bild-/Video-Generierungssystemen verboten hat.

In dieser alternativen Zukunft wird die neue globale Versorgung mit AI-Rechenzentren rohe Rechenleistung für benutzerkonfigurierte, benutzerdefinierte Systeme bereitstellen, anstatt die Anforderungen monumentaler “Black-Box”-Frameworks wie ChatGPT und Adobe Firefly zu erfüllen.

Oberflächenreibung

Wenn man durch die komplexen, Patreon-minierten Remote-GPU-Anleitungen auf r/stablediffusion blättert, scheint alles unmöglich: Die Modelle ändern ständig die Ziele mit jedem Update; sie sind schwierig zu deployen, selbst in den einfachsten und benutzerfreundlichsten Frameworks; und im Allgemeinen legt die Menge an Reibung nahe, dass dies ein Streben ist, das sich strikt für Geek-Hobbyisten und für jene abenteuerlustigen Unternehmen eignet, die nicht direkt in die KI involviert sind, aber ihre eigenen lokalen Systeme entwickeln und warten möchten, anstatt diese Fähigkeiten zu mieten.

Im Laufe der letzten dreißig Jahre hat jedoch jede Technologie, bei der es eine enorme Nachfrage nach offener und demokratischer Vereinfachung und Kommodifizierung gab, tendiert, diese zu erhalten, wobei die am weitesten verbreiteten Lösungen in der Regel aus den Spannungen zwischen kommerziellen Systemen und Open-Source-Alternativen und -Initiativen hervorgegangen sind.

Verfolgungen, die einst spezialisierte “Nerd”-Enklaven waren, wie Internetverbindungen, Content-Management-Systeme und Blogging-Frameworks sowie Internet-Sicherheit, Fotografie und Medienmanagement, haben sich alle von verwirrender Komplexität hin zu Einfachheit und Nützlichkeit entwickelt.

Daher kann die spätere KI-Landschaft möglicherweise vielfältiger und voller kleinerer und wirklich konkurrierender Spieler sein als die derzeitigen KI-Marktführer es bevorzugen mögen.

Selbstverwirklichung, aus Notwendigkeit

Ironischerweise trägt “Big AI” viel zu einem aufkommenden Geist der Unabhängigkeit bei den Endnutzern bei, indem sie alle Computerkomponenten für ihre Rechenzentren aufsaugt – insbesondere DRAM –, die sonst “normalen” Verbrauchern zur Verfügung gestanden wären.

Als Folge davon stellen viele sich eine Zukunft vor, in der geschlossene “globale KI”-Ressourcen über unterbetriebene Thin-Clients abgerufen werden und ein wachsendes Interesse an der Aufrechterhaltung ihrer bestehenden Geräte entwickeln.

Der Angriff der KI auf die Technik-Lieferketten hat auch dazu geführt, dass Technik-Dienstleister ihre Preise in den letzten 3-6 Monaten erhöht haben, entweder weil kleinere Unternehmen tatsächlich von der Hardware-Dürre gequetscht werden oder einfach nur weil KI.

Dies hat zu einem Anstieg des Interesses an Self-Hosting und On-Prem geführt – einschließlich Self-Hosting von maschinellen Lernnetzwerken.

Ich selbst bin davon betroffen, indem ich mich zu lokalen LAN-Speicher für Fotos und Videos sowie Dateisicherungen begebe. Für ersteres verwende ich den kostenlosen und Open-Source-Immich-Multiplattform-Mediaserver, der mir hilft, mich von den Preiserhöhungen (und anderen besorgniserregenden Problemen) von iCloud und anderen Cloud-Speicheranbietern zu lösen:

Die kostenlose Immich-Plattform kann Ihre Medien auf Ihrem Gerät und privat auf Ihren eigenen Kanälen halten. In diesem Fall verwende ich auch Immich auf Docker, um meinen NVIDIA 3090 GPU über das LAN zu servieren, wo die Fotos und Videos gespeichert sind, damit der leistungsstärkere GPU die AI-Lasten bei der Bild-/Videoverarbeitung übernehmen kann.

Die kostenlose Immich-Plattform kann Ihre Medien auf Ihrem Gerät und privat auf Ihren eigenen Kanälen halten. In diesem Fall verwende ich auch Immich auf Docker, um meinen NVIDIA 3090 GPU über das LAN zu servieren, wo die Fotos und Videos gespeichert sind, damit der leistungsstärkere GPU die AI-Lasten bei der Bild-/Videoverarbeitung übernehmen kann.

Wenn meine eigene Erfahrung ein repräsentativer Hinweis ist, ist Vibe-Coding – derzeit verflucht in vielen einst “reinen” Online-Communities – der Treiber dieser Unabhängigkeitswelle (auch wenn es die Open-Source-Repositorys bedroht, auf die es angewiesen ist).

Beispielsweise ist Netzwerken immer mein schwacher Punkt in der Computertechnik, also war die KI-Unterstützung für mich unerlässlich, um einen sicheren VPS zum Laufen zu bringen, um eine Reihe neuer Self-Hosting-Dienste zu unterstützen.

Auf diese Weise ist “Big AI” möglicherweise “Small AI” zu ermöglichen; daher können wir die derzeitige Zunahme von Hyperscale-, hyperbewerteten KI-Unternehmen als notwendigen, aber nur vorübergehenden Zustand vor einer demokratischeren und benutzer-empowerten KI-Gesellschaft betrachten, die moat-suchende, rent-suchende Konzerne wie abgeworfene Booster-Raketen abwirft – ähnlich wie der Dot-Com-Crash von 2000 ausbeutbare Infrastruktur hinterließ, die den Web long nach dem Zusammenbruch der Unternehmen, die sie finanzierten, stark beschleunigen würde.

Das Zeitalter der Einhaltung

Nun, das wird wahrscheinlich nicht wieder passieren.

Wenn wir doch geneigt sind, eine Art Ex-Moat-Randgesellschaft zu bilden, scheint die Regulierung um KI, kombiniert mit der aktuellen globalen Trend zur Altersverifizierung, wahrscheinlich, diese Entwicklungspfade zu antizipieren und zu blockieren.

Der Anker zur Verhinderung einer “Schatten-KI-Wirtschaft” ist die Regulierung. Bereits zentrale Repositorys wie GitHub und Hugging Face erfordern oft eine Online-Anmeldung, bevor sie Benutzern erlauben, Repositorys lokal zu klonen, abhängig von den Einstellungen des Repositorys.

Daher existieren bereits Mechanismen, um die Überwachung von KI-Frameworks weiter zu verfolgen, als dies derzeit der Fall ist; und der Wille, diese Überwachung zu erhöhen, konsolidiert sich derzeit von einzelnen Regierungsinitiativen in einen globalen Impuls.

Wenn also Marktkräfte und die Ingeniosität der FOSS-Bewegung die Reibung von der beiläufigen KI-Entwicklung entfernen, scheinen Straßensperren in Form von Regierungsanforderungen zurückzukehren: Einhaltungsanforderungen, die zwar belastend sind, aber für Unternehmen lohnenswert sind, möglicherweise jedoch nicht für Einzelpersonen – ähnlich wie die Reibung, die dem Verbraucher-Online-Zahlungssystem seit dem goldenen Zeitalter von PayPal in den 2000er Jahren hinzugefügt wurde.

Ob Meta 2 Milliarden Dollar für die Lobbyarbeit für OS-Ebene-Alterskontrolle ausgegeben hat, weil sie in KI investiert hat oder wegen ihrer Interessen an der Datenerfassung, die Folge der Unterstützung von Big Tech für die Alterskontrolle ist, dass “lokale” KI so reguliert werden kann wie eine Klasse-A-Substanz; und ebenso wie die DMCA entworfen wurde, um Absicht zu kriminalisieren, anstatt ein bestimmtes Urheberrechtsverletzungsmechanismus, könnten internationale KI-Regulierungen in einem solchen Szenario alle nicht konformen Nutzung von maschinellem Lernen zu einem verbotenen Akt machen, bei sehr geringen Kosten (in Bezug auf aktive Überwachung).

Dies könnte vor einem Jahr noch als übermäßig dystopisch erschienen sein – aber das war, bevor Kalifornien und systemd sich hinter die Idee der Hardware-Ebene-Altersverifizierung stellten, die derzeit von vielen als Stellvertreter für ein Verbot auf Online-Anonymität angesehen wird.

Schlussfolgerung

Während also die rechtliche und legislative Grundlage möglicherweise darauf vorbereitet ist, KI in einen hoch regulierten Raum zu integrieren, sodass beiläufige Nutzer ihre eigene KI nicht mehr “brauen” können, als wenn sie regulierte Substanzen ohne Erlaubnis anbauen oder fermentieren, hält der Forschungssektor seine optimistischere Haltung aufrecht – dass KI eine demokratisierte und vorteilhafte Kraft in der breiteren Gesellschaft als nur den Anhängern des beliebtesten geschlossenen Anbieters des Tages wird.

Viel hängt von der Entscheidung über die Trümmer ab, nachdem die KI-Blase geplatzt ist – zumindest in dem Maße, in dem Anbieter entweder konsolidieren oder der Markt in eine langfristige Balkanisierung eintritt – was wahrscheinlich eine sanftere Regulierungstouch erfordern würde.

 

Erstveröffentlichung am Mittwoch, den 1. April 2026

Autor über maschinelles Lernen, Domänen-Spezialist in der menschlichen Bildsynthese. Ehemaliger Leiter der Forschungsinhalte bei Metaphysic.ai.