Künstliche Intelligenz
Wie sich die stabile Verbreitung zu einem Mainstream-Verbraucherprodukt entwickeln könnte

Ironisch, Stabile Diffusionn, das neue KI-Framework zur Bildsynthese, das die Welt im Sturm erobert hat, ist weder stabil noch wirklich „verbreitet“ – zumindest noch nicht.
Die gesamte Bandbreite der Systemfunktionen ist über ein abwechslungsreiches Sammelsurium ständig wechselnder Angebote einer Handvoll Entwickler verteilt, die in diversen Kolloquien auf Discord fieberhaft die neuesten Informationen und Theorien austauschen – und die überwiegende Mehrheit der Installationsverfahren für die Pakete, die sie erstellen oder ändern, sind weit von „Plug and Play“ entfernt.
Vielmehr erfordern sie in der Regel eine Befehlszeile oder BAT-gesteuert Installation über GIT, Conda, Python, Miniconda und andere hochmoderne Entwicklungs-Frameworks – Softwarepakete, die unter den Verbrauchern so selten sind, dass ihre Installation so selten ist häufig gemeldet von Antiviren- und Anti-Malware-Anbietern als Beweis für ein kompromittiertes Hostsystem angesehen.

Nur eine kleine Auswahl der Phasen im Spießrutenlauf, die die Standardinstallation von Stable Diffusion derzeit erfordert. Viele Distributionen erfordern außerdem bestimmte Python-Versionen, die mit den auf dem Computer des Benutzers installierten Versionen kollidieren können. Dies lässt sich jedoch durch Docker-basierte Installationen und bis zu einem gewissen Grad durch die Verwendung von Conda-Umgebungen vermeiden.
Nachrichtenthreads in den SFW- und NSFW-Stable-Diffusion-Communitys sind überflutet mit Tipps und Tricks zum Hacken von Python-Skripten und Standardinstallationen, um verbesserte Funktionen zu ermöglichen oder häufige Abhängigkeitsfehler und eine Reihe anderer Probleme zu beheben.
Dies führt dazu, dass der Durchschnittsverbraucher daran interessiert ist erstaunliche Bilder erstellen B. durch Texteingabeaufforderungen, weitgehend der wachsenden Zahl monetarisierter API-Webschnittstellen ausgeliefert, von denen die meisten eine minimale Anzahl kostenloser Bildgenerationen bieten, bevor der Kauf von Tokens erforderlich ist.
Darüber hinaus weigern sich fast alle dieser webbasierten Angebote, NSFW-Inhalte auszugeben (von denen sich viele auf nicht-pornografische Themen von allgemeinem Interesse beziehen, wie etwa „Krieg“), was Stable Diffusion von den bereinigten Diensten von OpenAIs DALL-E 2 unterscheidet.
„Photoshop für stabile Diffusion“
Gereizt von den fabelhaften, gewagten oder überirdischen Bildern, die täglich den Twitter-Hashtag #stablediffusion bevölkern, wartet die Welt wohl auf „Photoshop für stabile Diffusion“ – eine plattformübergreifend installierbare Anwendung, die die beste und leistungsstärkste Funktionalität der Architektur von Stability.ai sowie die verschiedenen genialen Innovationen der aufstrebenden SD-Entwickler-Community vereint, ohne schwebende CLI-Fenster, undurchsichtige und sich ständig ändernde Installations- und Aktualisierungsroutinen oder fehlende Funktionen.
Was wir derzeit in den meisten leistungsfähigeren Installationen haben, ist eine äußerst elegante Webseite, die von einem körperlosen Befehlszeilenfenster umgeben ist und deren URL ein Localhost-Port ist:

Ähnlich wie CLI-gesteuerte Synthese-Apps wie FaceSwap und das BAT-zentrierte DeepFaceLab zeigt die „Prepack“-Installation von Stable Diffusion seine Befehlszeilenwurzeln, wobei auf die Schnittstelle über einen Localhost-Port zugegriffen wird (siehe oben im Bild), der mit der CLI-basierten Stable Diffusion-Funktionalität kommuniziert.
Zweifellos wird es eine optimierte Anwendung geben. Es gibt bereits mehrere Patreon-basierte integrierte Anwendungen, die heruntergeladen werden können, z GRisk und NMKD (siehe Bild unten) – aber noch keines, das den gesamten Funktionsumfang integriert, den einige der fortgeschritteneren und weniger zugänglichen Implementierungen von Stable Diffusion bieten können.

Frühe, auf Patreon basierende Pakete von Stable Diffusion, leicht „appisiert“. NMKD ist das erste, das die CLI-Ausgabe direkt in die GUI integriert.
Werfen wir einen Blick darauf, wie eine ausgefeiltere und ganzheitlichere Implementierung dieses erstaunlichen Open-Source-Wunders letztendlich aussehen könnte – und welche Herausforderungen damit verbunden sein könnten.
Rechtliche Überlegungen für eine vollständig finanzierte kommerzielle stabile Diffusionsanwendung
Der NSFW-Faktor
Der Stable Diffusion-Quellcode wurde unter einem veröffentlicht äußerst freizügige Lizenz was kommerzielle Neuimplementierungen und abgeleitete Werke, die weitgehend auf dem Quellcode aufbauen, nicht verbietet.
Neben der oben erwähnten und wachsenden Zahl von Patreon-basierten Stable Diffusion-Builds sowie der umfangreichen Zahl von Anwendungs-Plugins, für die entwickelt wird Figma, Krita, Photoshop, GIMP und Mixer (unter anderem) gibt es keine praktisch Dies ist der Grund, warum ein gut finanziertes Softwareentwicklungshaus keine weitaus ausgefeiltere und leistungsfähigere Stable Diffusion-Anwendung entwickeln könnte. Aus Marktsicht gibt es allen Grund zu der Annahme, dass mehrere solcher Initiativen bereits in vollem Gange sind.
Hier stehen solche Bemühungen unmittelbar vor dem Dilemma, ob die Anwendung, wie die Mehrheit der Web-APIs für Stable Diffusion, den nativen NSFW-Filter von Stable Diffusion zulässt (ein Codefragment), ausgeschaltet werden.
Den NSFW-Schalter „vergraben“
Obwohl die Open-Source-Lizenz von Stability.ai für Stable Diffusion eine breit auslegbare Liste von Anwendungen enthält, für die sie verwendet werden kann kein Frontalunterricht. verwendet werden (wohl einschließlich pornografischer Inhalt und Deepfakes), besteht die einzige Möglichkeit für einen Anbieter, eine solche Verwendung wirksam zu verbieten, darin, den NSFW-Filter in eine undurchsichtige ausführbare Datei anstelle eines Parameters in einer Python-Datei zu kompilieren oder einen Prüfsummenvergleich für die Python-Datei oder DLL zu erzwingen, die die NSFW-Direktive enthält. sodass keine Renderings stattfinden können, wenn Benutzer diese Einstellung ändern.
Dies würde die vermeintliche Anwendung „kastrieren“, ähnlich wie DALL-E 2 ist derzeit, was seine kommerzielle Attraktivität mindert. Außerdem würden in der Torrent-/Hacking-Community unweigerlich dekompilierte, „manipulierte“ Versionen dieser Komponenten (entweder ursprüngliche Python-Laufzeitelemente oder kompilierte DLL-Dateien, wie sie jetzt in der Topaz-Reihe von KI-Bildverbesserungstools verwendet werden) auftauchen, um solche Beschränkungen aufzuheben, indem einfach die blockierenden Elemente ersetzt und alle Prüfsummenanforderungen aufgehoben werden.
Letztendlich kann sich der Anbieter dafür entscheiden, einfach die Warnung von Stability.ai vor Missbrauch zu wiederholen, die für die erste Auflage vieler aktueller Stable Diffusion-Distributionen charakteristisch ist.
Allerdings haben die kleinen Open-Source-Entwickler, die derzeit oberflächliche Haftungsausschlüsse auf diese Weise verwenden, im Vergleich zu einem Softwareunternehmen, das viel Zeit und Geld investiert hat, um Stable Diffusion umfassend und zugänglich zu machen, wenig zu verlieren – was zu tieferer Überlegung einlädt.
Deepfake-Haftung
Da wir vor kurzem darauf hingewiesen,Die LAION-Ästhetikdatenbank, Teil der 4.2 Milliarden Bilder, mit denen die laufenden Modelle von Stable Diffusion trainiert wurden, enthält eine große Anzahl von Bildern von Prominenten, sodass Benutzer effektiv Deepfakes erstellen können, darunter auch Deepfake-Promi-Pornos.

Aus unserem aktuellen Artikel, vier Stationen von Jennifer Connelly über vier Jahrzehnte ihrer Karriere, abgeleitet aus Stable Diffusion.
Dies ist ein anderes und umstritteneres Thema als die Entstehung (normalerweise) legaler „abstrakter“ Pornografie, in der keine „echten“ Menschen dargestellt werden (obwohl solche Bilder aus mehreren echten Fotos im Schulungsmaterial abgeleitet werden).
Da immer mehr US-Bundesstaaten und Länder Gesetze gegen Deepfake-Pornografie entwickeln oder bereits erlassen haben, könnte die Fähigkeit von Stable Diffusion, Promi-Pornos zu erstellen, bedeuten, dass eine kommerzielle Anwendung, die nicht vollständig zensiert ist (d. h. pornografisches Material erstellen kann), dennoch die Möglichkeit benötigt, wahrgenommene Gesichter von Prominenten herauszufiltern.
Eine Möglichkeit wäre die Bereitstellung einer integrierten „schwarzen Liste“ mit Begriffen, die in einer Benutzereingabeaufforderung nicht akzeptiert werden. Diese Liste bezieht sich auf Namen von Prominenten und fiktive Charaktere, mit denen sie in Verbindung gebracht werden könnten. Solche Einstellungen müssten vermutlich in mehreren Sprachen als nur Englisch implementiert werden, da die ursprünglichen Daten auch andere Sprachen enthalten. Ein anderer Ansatz könnte die Integration von Systemen zur Erkennung von Prominenten sein, wie sie beispielsweise von Clarifai entwickelt wurden.
Für Softwarehersteller kann es erforderlich sein, solche Methoden zu integrieren, die möglicherweise zunächst ausgeschaltet sind, da sie dazu beitragen können, zu verhindern, dass eine vollwertige eigenständige Stable Diffusion-Anwendung Prominentengesichter generiert, bis neue Gesetze erlassen werden, die diese Funktionalität illegal machen könnten.
Allerdings könnte eine solche Funktionalität von interessierten Parteien unweigerlich dekompiliert und rückgängig gemacht werden; Allerdings könnte der Softwarehersteller in diesem Fall behaupten, dass es sich tatsächlich um nicht sanktionierten Vandalismus handelt – solange diese Art des Reverse Engineering nicht übermäßig vereinfacht wird.
Funktionen, die enthalten sein könnten
Die Kernfunktionalität in jeder Distribution von Stable Diffusion würde man von jeder gut finanzierten kommerziellen Anwendung erwarten. Dazu gehört die Möglichkeit, Texteingabeaufforderungen zu verwenden, um passende Bilder zu generieren (Text-zu-Bild); die Fähigkeit, Skizzen oder andere Bilder als Richtlinien für neu generierte Bilder zu verwenden (Bild zu Bild); die Möglichkeit, die Fantasie des Systems anzupassen; eine Möglichkeit, Renderzeit gegen Qualität abzuwägen; und andere „Grundlagen“, wie etwa die optionale automatische Bild-/Eingabeaufforderungsarchivierung und die routinemäßige optionale Hochskalierung über RealESRGANund zumindest eine grundlegende Gesichtskorrektur mit GFPGAN or CodeFormer.
Das ist eine ziemlich einfache Installation. Werfen wir einen Blick auf einige der fortgeschritteneren Funktionen, die derzeit entwickelt oder erweitert werden und in eine vollwertige „traditionelle“ Stable Diffusion-Anwendung integriert werden könnten.
Stochastisches Einfrieren
Auch wenn Sie einen Samen wiederverwenden Aufgrund eines früheren erfolgreichen Renderings ist es furchtbar schwierig, Stable Diffusion dazu zu bringen, eine Transformation genau zu wiederholen, wenn irgendein Teil der Eingabeaufforderung oder das Quellbild (oder beides) wird für ein nachfolgendes Rendern geändert.
Dies ist ein Problem, wenn Sie es verwenden möchten EbSynth um die Transformationen von Stable Diffusion auf zeitlich kohärente Weise auf echte Videos anzuwenden – obwohl die Technik für einfache Kopf- und Schulteraufnahmen sehr effektiv sein kann:

Begrenzte Bewegung kann EbSynth zu einem effektiven Medium machen, um Stable Diffusion-Transformationen in realistische Videos umzuwandeln. Quelle: https://streamable.com/u0pgzd
EbSynth funktioniert, indem eine kleine Auswahl „veränderter“ Keyframes in ein Video extrapoliert wird, das in eine Reihe von Bilddateien gerendert wurde (und später wieder zu einem Video zusammengesetzt werden kann).

In diesem Beispiel von der EbSynth-Site wurden einige wenige Frames aus einem Video auf künstlerische Weise gemalt. EbSynth verwendet diese Frames als Stilrichtlinien, um das gesamte Video auf ähnliche Weise zu ändern, damit es dem gemalten Stil entspricht. Quelle: https://www.youtube.com/embed/eghGQtQhY38
Im folgenden Beispiel, in dem die (echte) blonde Yogalehrerin links fast keine Bewegung zeigt, hat Stable Diffusion immer noch Schwierigkeiten, ein einheitliches Gesicht beizubehalten, da die drei als „Schlüsselbilder“ transformierten Bilder nicht völlig identisch sind, obwohl sie alle denselben numerischen Startwert aufweisen.

Hier variieren die Körpermuskeln in Größe und Form, selbst wenn bei allen drei Transformationen derselbe Prompt und Seed verwendet wird und zwischen den Quellframes nur sehr wenige Änderungen vorgenommen werden. Noch wichtiger ist jedoch, dass das Gesicht inkonsistent ist, was die zeitliche Konsistenz bei einem möglichen EbSynth-Rendering behindert.
Obwohl das SD/EbSynth-Video unten sehr einfallsreich ist, da die Finger des Benutzers in (jeweils) ein laufendes Hosenbein und eine Ente verwandelt wurden, ist die Inkonsistenz der Hosen ein typisches Beispiel für das Problem, das Stable Diffusion bei der Aufrechterhaltung der Konsistenz über verschiedene Keyframes hinweg hat, selbst wenn die Quellframes einander ähnlich sind und der Seed konsistent ist.

Die Finger eines Mannes werden durch Stable Diffusion und EbSynth zu einem laufenden Mann und einer Ente. Quelle: https://old.reddit.com/r/StableDiffusion/comments/x92itm/proof_of_concept_using_img2img_ebsynth_to_animate/
Der Benutzer, der dieses Video erstellt hat kommentierte dass die Ententransformation, die wohl wirkungsvollere, wenn auch weniger auffällige und originellere der beiden, nur einen einzigen transformierten Keyframe erforderte, wohingegen 50 Stable Diffusion-Bilder gerendert werden mussten, um die Wanderhose zu erstellen, die mehr Zeit zeigt Inkonsistenz. Der Benutzer stellte außerdem fest, dass fünf Versuche erforderlich waren, um für jeden der 50 Keyframes Konsistenz zu erreichen.
Daher wäre es für eine wirklich umfassende Stable Diffusion-Anwendung von großem Vorteil, eine Funktionalität bereitzustellen, die die Eigenschaften über Keyframes hinweg so weit wie möglich beibehält.
Eine Möglichkeit besteht darin, dass die Anwendung dem Benutzer erlaubt, die stochastische Kodierung für die Transformation jedes Frames „einzufrieren“. Dies ist derzeit nur durch manuelle Änderungen am Quellcode möglich. Wie das folgende Beispiel zeigt, trägt dies zur zeitlichen Konsistenz bei, löst das Problem jedoch nicht:

Ein Reddit-Benutzer transformierte Webcam-Aufnahmen von sich selbst in verschiedene berühmte Personen, indem er nicht nur den Seed beibehielt (was jede Implementierung von Stable Diffusion tun kann), sondern indem er sicherstellte, dass der Parameter stochastic_encode() in jeder Transformation identisch war. Dies wurde durch eine Änderung des Codes erreicht, könnte aber leicht zu einem für den Benutzer zugänglichen Schalter werden. Es ist jedoch klar, dass dadurch nicht alle zeitlichen Probleme gelöst werden. Quelle: https://old.reddit.com/r/StableDiffusion/comments/wyeoqq/turning_img2img_into_vid2vid/
Cloudbasierte Textinversion
Eine bessere Lösung für die Erzielung zeitlich konsistenter Charaktere und Objekte besteht darin, sie in ein Textinversion – eine 5-KB-Datei, die in wenigen Stunden auf der Grundlage von nur fünf annotierten Bildern trainiert werden kann, die dann durch ein Special hervorgerufen werden können '*' Dies ermöglicht beispielsweise das dauerhafte Erscheinen neuartiger Charaktere zur Einbindung in eine Erzählung.

Bilder, die mit passenden Tags verknüpft sind, können durch Textinversion in diskrete Einheiten umgewandelt und durch spezielle Token-Wörter ohne Mehrdeutigkeit und im richtigen Kontext und Stil aufgerufen werden. Quelle: https://huggingface.co/docs/diffusers/training/text_inversion
Textuelle Inversionen sind Zusatzdateien zu dem sehr großen und vollständig trainierten Modell, das Stable Diffusion verwendet, und werden effektiv in den Eliciting-/Prompting-Prozess „eingeschleust“, so dass sie teilnehmen in modellbasierten Szenen und profitieren Sie von der enormen Wissensdatenbank des Modells zu Objekten, Stilen, Umgebungen und Interaktionen.
Obwohl das Training einer Textinversion nicht lange dauert, ist dafür eine hohe Menge an VRAM erforderlich. Laut verschiedenen aktuellen Komplettlösungen irgendwo zwischen 12, 20 und sogar 40 GB.
Da die meisten Gelegenheitsnutzer wahrscheinlich nicht über eine solche GPU-Leistung verfügen werden, entstehen bereits Cloud-Dienste, die den Betrieb übernehmen, darunter eine Hugging Face-Version. Obwohl es welche gibt Google Colab-Implementierungen die textuelle Inversionen für eine stabile Verbreitung erzeugen können, können der erforderliche VRAM- und Zeitbedarf diese für Colab-Benutzer der kostenlosen Version zu einer Herausforderung machen.
Für eine potenzielle vollwertige und gut investierte (installierte) Stable Diffusion-Anwendung scheint die Auslagerung dieser aufwändigen Aufgabe auf die Cloud-Server des Unternehmens eine naheliegende Monetarisierungsstrategie zu sein (vorausgesetzt, eine kostengünstige oder kostenlose Stable Diffusion-Anwendung ist mit solchen nicht kostenlosen Funktionen ausgestattet, was bei vielen möglichen Anwendungen, die in den nächsten 6–9 Monaten aus dieser Technologie hervorgehen werden, wahrscheinlich ist).
Darüber hinaus könnte der recht komplizierte Prozess der Kommentierung und Formatierung der übermittelten Bilder und Texte von einer Automatisierung in einer integrierten Umgebung profitieren. Der potenzielle Suchtfaktor bei der Erstellung einzigartiger Elemente, mit denen die riesigen Welten von Stable Diffusion erkundet und mit ihnen interagiert werden können, könnte sowohl für allgemeine Enthusiasten als auch für jüngere Benutzer potenziell zwanghaft sein.
Vielseitige Schnellgewichtung
Es gibt viele aktuelle Implementierungen, die es dem Benutzer ermöglichen, einem Abschnitt einer Langtext-Eingabeaufforderung eine stärkere Betonung zuzuweisen, aber die Instrumentalität variiert stark zwischen diesen und ist häufig umständlich oder nicht intuitiv.
Die sehr beliebte Stable Diffusion-Gabel von AUTOMATIC1111kann beispielsweise den Wert eines Aufforderungsworts verringern oder erhöhen, indem es in einzelne oder mehrere Klammern (zur Abschwächung) oder in eckige Klammern zur zusätzlichen Hervorhebung gesetzt wird.

Eckige Klammern und/oder Klammern können Ihr Frühstück in dieser Version der Stable Diffusion-Prompt-Gewichte verwandeln, aber so oder so ist es ein Cholesterin-Albtraum.
Andere Iterationen von Stable Diffusion verwenden Ausrufezeichen zur Hervorhebung, während die vielseitigsten es Benutzern ermöglichen, jedem Wort in der Eingabeaufforderung über die GUI Gewichtungen zuzuweisen.
Das System sollte dies auch ermöglichen negative Promptgewichte – nicht nur für Horrorfans, sondern weil es im latenten Raum von Stable Diffusion möglicherweise weniger alarmierende und erbaulichere Geheimnisse gibt, als unser begrenzter Sprachgebrauch heraufbeschwören kann.
Übermalen
Kurz nach der sensationellen Open-Source-Veröffentlichung von Stable Diffusion versuchte OpenAI – größtenteils vergeblich –, einen Teil seines DALL-E 2-Donners zurückzuerobern Ankündigung „Outpainting“, das es einem Benutzer ermöglicht, ein Bild mit semantischer Logik und visueller Kohärenz über seine Grenzen hinaus zu erweitern.
Natürlich ist dies seitdem der Fall umgesetzt in verschiedenen Formen für stabile Diffusion, sowie in Kritaund sollte auf jeden Fall in einer umfassenden Photoshop-ähnlichen Version von Stable Diffusion enthalten sein.

Durch kachelbasierte Erweiterung kann ein standardmäßiges 512×512-Rendering nahezu unendlich erweitert werden, sofern die Eingabeaufforderungen, das vorhandene Bild und die semantische Logik dies zulassen. Quelle: https://github.com/lkwq007/stablediffusion-infinity
Da Stable Diffusion auf 512 x 512 Pixel großen Bildern trainiert wird (und aus einer Reihe anderer Gründe), schneidet es häufig die Köpfe (oder andere wichtige Körperteile) von menschlichen Motiven ab, selbst wenn die Eingabeaufforderung eindeutig auf „Kopfbetonung“ usw. hinweist.

Typische Beispiele für die „Enthauptung“ durch stabile Diffusion; durch Übermalen könnte George jedoch wieder ins Bild kommen.
Jede Outpainting-Implementierung des im obigen animierten Bild dargestellten Typs (die ausschließlich auf Unix-Bibliotheken basiert, aber unter Windows replizierbar sein sollte) sollte ebenfalls als Ein-Klick-/Prompt-Lösung für dieses Problem bereitgestellt werden.
Derzeit erweitern einige Benutzer die Leinwand der „enthaupteten“ Darstellungen nach oben, füllen den Kopfbereich grob aus und verwenden img2img, um das verpfuschte Rendering zu vervollständigen.
Effektive Maskierung, die den Kontext versteht
Masking kann in Stable Diffusion, je nach Fork oder Version, eine furchtbar unzuverlässige Angelegenheit sein. Wenn es überhaupt möglich ist, eine zusammenhängende Maske zu zeichnen, wird der angegebene Bereich häufig mit Inhalten übermalt, die den gesamten Kontext des Bildes nicht berücksichtigen.
Einmal habe ich die Hornhäute eines Gesichtsbilds ausgeblendet und die Eingabeaufforderung gegeben 'blaue Augen' als gemalte Maske – nur um festzustellen, dass ich durch zwei ausgeschnittene menschliche Augen auf das entfernte Bild eines überirdisch aussehenden Wolfes zu blicken schien. Ich schätze, ich hatte Glück, dass es nicht Frank Sinatra war.
Auch eine semantische Bearbeitung ist möglich Identifizieren des Geräusches der das Bild überhaupt erstellt hat, was es dem Benutzer ermöglicht, bestimmte Strukturelemente in einem Rendering anzusprechen, ohne den Rest des Bildes zu beeinträchtigen:

Ändern eines Elements in einem Bild ohne herkömmliche Maskierung und ohne Änderung angrenzender Inhalte, indem das Rauschen identifiziert wird, das ursprünglich zum Bild geführt hat, und die Teile davon angesprochen werden, die zum Zielbereich beigetragen haben. Quelle: https://old.reddit.com/r/StableDiffusion/comments/xboy90/a_better_way_of_doing_img2img_by_finding_the/
Diese Methode basiert auf der K-Diffusions-Probenehmer.
Semantische Filter für physiologische Fehler
Wie bereits erwähnt, kann es bei der stabilen Diffusion häufig zu Gliedmaßenzunahmen oder -abnahmen kommen, was größtenteils auf Datenprobleme und Mängel in den Anmerkungen zu den Bildern zurückzuführen ist, mit denen die Methode trainiert wurde.

Genau wie bei dem fehlgeleiteten Kind, das auf dem Gruppenfoto der Schule die Zunge herausstreckte, sind die biologischen Grausamkeiten von Stable Diffusion nicht immer sofort offensichtlich, und Sie haben Ihr neuestes KI-Meisterwerk vielleicht schon auf Instagram gepostet, bevor Ihnen die zusätzlichen Hände oder geschmolzenen Gliedmaßen aufgefallen sind.
Es ist so schwierig, diese Art von Fehlern zu beheben, dass es nützlich wäre, wenn eine Stable Diffusion-Anwendung in voller Größe eine Art anatomisches Erkennungssystem enthalten würde, das semantische Segmentierung verwendet, um zu berechnen, ob das eingehende Bild schwerwiegende anatomische Mängel aufweist (wie im Bild oben). ) und verwirft es zugunsten eines neuen Renderings, bevor es dem Benutzer präsentiert wird.

Natürlich möchten Sie vielleicht die Göttin Kali oder Doktor Octopus rendern oder sogar einen unberührten Teil eines Bildes mit Gliedmaßen retten, daher sollte diese Funktion ein optionaler Schalter sein.
Wenn Benutzer den Telemetrieaspekt tolerieren könnten, könnten solche Aussetzer im Rahmen einer gemeinsamen Anstrengung des föderativen Lernens sogar anonym übertragen werden, was künftigen Modellen helfen könnte, ihr Verständnis der anatomischen Logik zu verbessern.
LAION-basierte automatische Gesichtsverbesserung
Wie ich in meiner anmerkte vorheriger Blick Bei drei Dingen, die Stable Diffusion in Zukunft angehen könnte, sollte es nicht allein einer Version von GFPGAN überlassen bleiben, zu versuchen, gerenderte Gesichter in Renderings der ersten Instanz zu „verbessern“.
Die „Verbesserungen“ von GFPGAN sind schrecklich allgemein gehalten, untergraben häufig die Identität der abgebildeten Person und wirken sich ausschließlich auf ein Gesicht aus, das in der Regel schlecht wiedergegeben wurde, da ihm nicht mehr Verarbeitungszeit oder Aufmerksamkeit gewidmet wurde als jedem anderen Teil des Bildes.
Daher sollte ein professionelles Standardprogramm für stabile Diffusion in der Lage sein, ein Gesicht zu erkennen (mit einer standardmäßigen und relativ schlanken Bibliothek wie YOLO), die volle verfügbare GPU-Leistung für die Neudarstellung zu nutzen und das verbesserte Gesicht entweder in das ursprüngliche Vollkontext-Rendering einzufügen oder es separat für die manuelle Neukomposition zu speichern. Derzeit ist dies ein relativ manueller Vorgang.

In Fällen, in denen Stable Diffusion anhand einer ausreichenden Anzahl von Bildern einer Berühmtheit trainiert wurde, ist es möglich, die gesamte GPU-Kapazität auf ein nachfolgendes Rendering ausschließlich des Gesichts des gerenderten Bildes zu konzentrieren, was normalerweise eine deutliche Verbesserung darstellt – und im Gegensatz zu GFPGAN auf Informationen aus mit LAION trainierten Daten zurückgreift, anstatt einfach die gerenderten Pixel anzupassen.
In-App-LAION-Suchen
Seit den Benutzern klar wurde, dass die Suche in der LAION-Datenbank nach Konzepten, Personen und Themen eine Hilfestellung für eine bessere Nutzung von Stable Diffusion sein könnte, wurden mehrere Online-LAION-Explorer erstellt, darunter haveibeentrained.com.

Mit der Suchfunktion von haveibeentrained.com können Nutzer die Bilder erkunden, die Stable Diffusion zugrunde liegen. So können sie herausfinden, ob Objekte, Personen oder Ideen, die sie dem System entlocken möchten, wahrscheinlich bereits darin trainiert wurden. Solche Systeme sind auch nützlich, um angrenzende Entitäten zu entdecken, beispielsweise die Gruppierung von Prominenten oder die „nächste Idee“, die auf der aktuellen Idee aufbaut. Quelle: https://haveibeentrained.com/?search_text=bowl%20of%20fruit
Obwohl solche webbasierten Datenbanken oft einige der Tags offenlegen, die den Bildern beiliegen, ist der Prozess von Verallgemeinerung Dies bedeutet, dass es unwahrscheinlich ist, dass ein bestimmtes Bild mithilfe seines Tags als Eingabeaufforderung aufgerufen werden kann.
Außerdem ist die Entfernung von „Stoppwörter“ und die Praxis der Stammbildung und Lemmatisierung in der Verarbeitung natürlicher Sprache bedeutet, dass viele der angezeigten Phrasen aufgeteilt oder weggelassen wurden, bevor sie in die stabile Diffusion trainiert wurden.
Dennoch kann die Art und Weise, wie ästhetische Gruppierungen in diesen Schnittstellen zusammengefügt werden, dem Endbenutzer viel über die Logik (oder wohl auch die „Persönlichkeit“) der stabilen Diffusion beibringen und sich als Hilfe für eine bessere Bildproduktion erweisen.
Fazit
Es gibt viele weitere Funktionen, die ich gerne in einer vollständigen nativen Desktop-Implementierung von Stable Diffusion sehen würde, wie etwa eine native CLIP-basierte Bildanalyse, die den standardmäßigen Stable Diffusion-Prozess umkehrt und es dem Benutzer ermöglicht, Ausdrücke und Wörter zu ermitteln, die das System auf natürliche Weise mit dem Quellbild oder dem Rendering assoziieren würde.
Darüber hinaus wäre eine echte kachelbasierte Skalierung eine willkommene Ergänzung, da ESRGAN ein fast ebenso stumpfes Instrument wie GFPGAN ist. Zum Glück ist geplant, das zu integrieren txt2imghd Die Implementierung von GOBIG lässt dies schnell in allen Distributionen Wirklichkeit werden, und es scheint eine offensichtliche Wahl für eine Desktop-Iteration zu sein.
Einige andere beliebte Wünsche aus den Discord-Communitys interessieren mich weniger, wie zum Beispiel integrierte Eingabeaufforderungswörterbücher und anwendbare Listen von Künstlern und Stilen, obwohl ein In-App-Notizbuch oder ein anpassbares Phrasenlexikon eine logische Ergänzung erscheinen würde.
Ebenso sind die aktuellen Einschränkungen der menschenzentrierten Animation in Stable Diffusion, obwohl sie von CogVideo und verschiedenen anderen Projekten ins Leben gerufen wurden, immer noch im Entstehen begriffen und unterliegen der Gnade der vorgelagerten Forschung zu zeitlichen Prioritäten im Zusammenhang mit authentischer menschlicher Bewegung.
Im Moment gilt ausschließlich das Stable Diffusion-Video psychedelisch, obwohl es in naher Zukunft eine viel bessere Zukunft im Deepfake-Puppenspiel haben könnte, über EbSynth und andere relativ junge Text-zu-Video-Initiativen (und es ist erwähnenswert, dass es in Runways neuestes Werbevideo).
Eine weitere wertvolle Funktion wäre die transparente Photoshop-Durchleitung, die unter anderem im Textur-Editor von Cinema4D seit langem etabliert ist. Damit lassen sich Bilder problemlos zwischen Anwendungen verschieben und jede Anwendung für die Transformationen nutzen, die sie besonders gut beherrscht.
Schließlich und vielleicht am wichtigsten: Ein vollständiges Desktop-Programm zur stabilen Diffusion sollte nicht nur in der Lage sein, problemlos zwischen Prüfpunkten (d. h. Versionen des zugrunde liegenden Modells, das das System antreibt) zu wechseln, sondern auch in der Lage sein, benutzerdefinierte Textinversionen zu aktualisieren, die funktioniert haben mit früheren offiziellen Modellveröffentlichungen, kann aber andernfalls durch spätere Versionen des Modells beschädigt werden (wie Entwickler beim offiziellen Discord angegeben haben, dass dies der Fall sein könnte).
Ironischerweise hat sich die Organisation, die am besten in der Lage ist, eine so leistungsstarke und integrierte Werkzeugmatrix für Stable Diffusion zu erstellen, Adobe, so stark mit dem verbündet Initiative zur Authentizität von Inhalten dass es als rückschrittlicher PR-Fehltritt für das Unternehmen erscheinen könnte – es sei denn, es würde die generativen Kräfte von Stable Diffusion so gründlich beeinträchtigen, wie es OpenAI mit DALL-E 2 getan hat, und es stattdessen als natürliche Weiterentwicklung seiner beträchtlichen Bestände an Stockfotografie positionieren.
Erstveröffentlichung am 15. September 2022.












