Künstliche Intelligenz

Drei Herausforderungen für eine stabile Verbreitung

Veröffentlicht September 6, 2022

Aktualisiert December 9, 2022

Martin Anderson

Die Release der stabilen Verbreitung von stability.ai latente Diffusion Das Bildsynthesemodell vor ein paar Wochen könnte eine der bedeutendsten technologischen Enthüllungen sein seit DeCSS im Jahr 1999; es ist sicherlich das größte Ereignis im Bereich der KI-generierten Bilder seit dem Jahr 2017 Deepfakes-Code wurde auf GitHub kopiert und in das gespalten, was später werden sollte DeepFaceLab sowie Gesicht tauschensowie die Echtzeit-Streaming-Deepfake-Software DeepFaceLive.

Auf einen Schlag, Frustration der Benutzer über die inhaltliche Beschränkungen in der Bildsynthese-API von DALL-E 2 wurden beiseite geschoben, als sich herausstellte, dass der NSFW-Filter von Stable Diffusion durch Ändern eines einzige Codezeile. Fast sofort tauchten pornografische Stable Diffusion-Reddits auf und wurden ebenso schnell wieder abgebaut, während sich das Entwickler- und Nutzerlager auf Discord in die offizielle und die NSFW-Community aufteilte und Twitter begann, sich mit fantastischen Stable Diffusion-Kreationen zu füllen.

Im Moment scheint jeder Tag einige erstaunliche Innovationen von den Entwicklern zu bringen, die das System übernommen haben, wobei in aller Eile Plugins und Drittanbieter-Zusätze geschrieben werden Krita, Photoshop, Cinema4D, Mixerund viele andere Anwendungsplattformen.

Stabile Diffusion Krita Addon

Watch this video on YouTube

In der Zwischenzeit promptcraft – die mittlerweile professionelle Kunst des „KI-Flüsterns“, die möglicherweise die kürzeste Karriereoption seit dem „Filofax-Ordner“ ist – wird bereits kommerzialisiert, während die frühe Monetarisierung von Stable Diffusion am stattfindet Patreon-Ebene, mit der Gewissheit, dass es noch anspruchsvollere Angebote für diejenigen geben wird, die nicht navigieren möchten Conda-basiert Installationen des Quellcodes oder die einschränkenden NSFW-Filter webbasierter Implementierungen.

Die Entwicklung und der freie Spielraum der Nutzer schreiten mit einer so schwindelerregenden Geschwindigkeit voran, dass es schwierig ist, weit in die Zukunft zu blicken. Im Grunde wissen wir noch nicht genau, womit wir es zu tun haben oder welche Einschränkungen und Möglichkeiten es geben könnte.

Werfen wir dennoch einen Blick auf drei der möglicherweise interessantesten und schwierigsten Hürden, die die schnell entstandene und schnell wachsende Stable Diffusion-Community zu bewältigen und hoffentlich zu überwinden hat.

1: Optimierung kachelbasierter Pipelines

Angesichts begrenzter Hardwareressourcen und strenger Beschränkungen der Auflösung von Trainingsbildern ist es wahrscheinlich, dass Entwickler Workarounds finden werden, um sowohl die Qualität als auch die Auflösung der Stable Diffusion-Ausgabe zu verbessern. Bei vielen dieser Projekte werden die Einschränkungen des Systems ausgenutzt, beispielsweise die native Auflösung von lediglich 512 x 512 Pixeln.

Wie immer bei Computer-Vision- und Bildsyntheseinitiativen wurde Stable Diffusion auf Bildern im Quadratverhältnis trainiert, in diesem Fall auf 512×512 neu abgetastet, damit die Quellbilder reguliert werden konnten und in die Einschränkungen der GPUs passen konnten trainierte das Modell.

Daher „denkt“ Stable Diffusion (wenn überhaupt) in 512×512-Begriffen und insbesondere im Quadratformat. Viele Benutzer, die derzeit die Grenzen des Systems ausloten, berichten, dass Stable Diffusion bei diesem eher eingeschränkten Seitenverhältnis die zuverlässigsten und störungsärmsten Ergebnisse liefert (siehe „Behandeln von Extremitäten“ weiter unten).

Obwohl verschiedene Implementierungen eine Hochskalierung über ermöglichen RealESRGAN (und kann schlecht gerenderte Gesichter reparieren über GFPGAN) Mehrere Benutzer entwickeln derzeit Methoden, um Bilder in 512 x 512 Pixel große Abschnitte aufzuteilen und die Bilder zu größeren zusammengesetzten Werken zusammenzufügen.

Dieses 1024x576-Rendering, eine Auflösung, die normalerweise in einem einzelnen Stable Diffusion-Rendering nicht möglich ist, wurde durch Kopieren und Einfügen der Python-Datei „tention.py“ aus dem DoggettX-Fork von Stable Diffusion (einer Version, die kachelbasiertes Upscaling implementiert) in einen anderen Fork erstellt. Quelle: https://old.reddit.com/r/StableDiffusion/comments/x6yeam/1024x576_with_6gb_nice/

Dieses 1024×576-Rendering, eine Auflösung, die normalerweise in einem einzelnen Stable Diffusion-Rendering nicht möglich ist, wurde durch Kopieren und Einfügen der Python-Datei „tention.py“ aus dem erstellt DoggettX Fork von Stable Diffusion (eine Version, die kachelbasiertes Upscaling implementiert) in einen anderen Fork. Quelle: https://old.reddit.com/r/StableDiffusion/comments/x6yeam/1024x576_with_6gb_nice/

Obwohl einige Initiativen dieser Art Originalcode oder andere Bibliotheken verwenden, ist die txt2imghd-Port von GOBIG (ein Modus im VRAM-hungrigen ProgRockDiffusion) wird diese Funktionalität bald dem Hauptzweig zur Verfügung stellen. Während txt2imghd eine dedizierte Portierung von GOBIG ist, umfassen andere Bemühungen von Community-Entwicklern unterschiedliche Implementierungen von GOBIG.

Ein praktisch abstraktes Bild im ursprünglichen 512x512px-Rendering (links und zweites von links); hochskaliert durch ESGRAN, das jetzt mehr oder weniger nativ in allen Stable Diffusion-Distributionen ist; und durch eine Implementierung von GOBIG „besondere Aufmerksamkeit“ geschenkt, wodurch Details erzeugt werden, die zumindest innerhalb der Grenzen des Bildabschnitts besser skaliert erscheinen. Quelle: https://old.reddit.com/r/StableDiffusion/comments/x72460/stable_diffusion_gobig_txt2imghd_easy_mode_colab/

Ein praktisch abstraktes Bild im Original-Rendering mit 512 x 512 Pixeln (links und zweites von links); hochskaliert durch ESGRAN, das nun mehr oder weniger nativ für alle Stable Diffusion-Verteilungen ist; und mit „besonderer Aufmerksamkeit“ durch eine Implementierung von GOBIG, wodurch Details erzeugt werden, die zumindest innerhalb der Grenzen des Bildausschnitts besser hochskaliert erscheinen. SQuelle: https://old.reddit.com/r/StableDiffusion/comments/x72460/stable_diffusion_gobig_txt2imghd_easy_mode_colab/

Die Art des abstrakten Beispiels, das oben gezeigt wurde, hat viele „kleine Königreiche“ von Details, die zu diesem solipsistischen Ansatz zur Hochskalierung passen, die aber anspruchsvollere Code-gesteuerte Lösungen erfordern, um eine nicht-repetitive, zusammenhängende Hochskalierung zu erzeugen, die nicht aussehen als wäre es aus vielen Teilen zusammengesetzt. Nicht zuletzt bei menschlichen Gesichtern, bei denen wir ungewöhnlich empfindlich auf Abweichungen oder störende Artefakte reagieren. Daher benötigen Gesichter möglicherweise irgendwann eine spezielle Lösung.

Stable Diffusion verfügt derzeit über keinen Mechanismus, um die Aufmerksamkeit während eines Renderings auf das Gesicht zu lenken, so wie Menschen Gesichtsinformationen priorisieren. Obwohl einige Entwickler in den Discord-Communitys über Methoden zur Implementierung dieser Art von „erhöhter Aufmerksamkeit“ nachdenken, ist es derzeit viel einfacher, das Gesicht nach dem ersten Rendering manuell (und schließlich automatisch) zu optimieren.

Ein menschliches Gesicht verfügt über eine interne und vollständige semantische Logik, die in einer „Kachel“ der unteren Ecke (beispielsweise) eines Gebäudes nicht zu finden ist. Daher ist es derzeit möglich, ein „skizzenhaftes“ Gesicht in der stabilen Diffusionsausgabe sehr effektiv „hereinzuzoomen“ und neu zu rendern.

Links: Der erste Versuch von Stable Diffusion mit der Aufforderung „Ganzes Farbfoto von Christina Hendricks, die einen überfüllten Ort betritt und einen Regenmantel trägt; „Canon 50, Blickkontakt, hohe Detailgenauigkeit, hohe Gesichtsdetails“. Rechts ein verbessertes Gesicht, das dadurch entsteht, dass das verschwommene und skizzenhafte Gesicht aus dem ersten Rendering mit Img2Img wieder der vollen Aufmerksamkeit von Stable Diffusion zugeführt wird (siehe animierte Bilder unten).

Links: Stable Diffusions erster Versuch mit der Aufforderung „Ganzkörper-Farbfoto von Christina Hendricks, wie sie in einem Regenmantel einen belebten Ort betritt; Canon 50, Blickkontakt, hohe Detailgenauigkeit, hohe Gesichtsdetails“. Rechts: ein verbessertes Gesicht, das dadurch erhalten wurde, dass das unscharfe und skizzenhafte Gesicht aus dem ersten Rendering mithilfe von Img2Img wieder in die volle Aufmerksamkeit von Stable Diffusion eingespeist wurde (siehe animierte Bilder unten).

In Ermangelung einer dedizierten Textinversionslösung (siehe unten) funktioniert dies nur für Prominentenbilder, bei denen die betreffende Person bereits in den LAION-Datenteilsätzen gut vertreten ist, die Stable Diffusion trainiert haben. Daher wird es bei Leuten wie Tom Cruise, Brad Pitt, Jennifer Lawrence und einer begrenzten Anzahl echter Mediengrößen funktionieren, die in einer großen Anzahl von Bildern in den Quelldaten vorhanden sind.

Generieren eines plausiblen Pressebildes mit der Aufforderung „Ganzes Farbfoto von Christina Hendricks, die einen überfüllten Ort betritt und einen Regenmantel trägt; „Canon 50, Blickkontakt, hohe Detailgenauigkeit, hohe Gesichtsdetails“.

Erstellen eines plausiblen Pressebildes mit der Aufforderung „Ganzkörper-Farbfoto von Christina Hendricks beim Betreten eines belebten Ortes, in einem Regenmantel; Canon 50, Augenkontakt, hohe Detailgenauigkeit, hohe Gesichtsdetails“.

Bei Prominenten mit langer und dauerhafter Karriere erzeugt Stable Diffusion in der Regel ein Bild der Person in einem jüngeren (d. h. älteren) Alter, und es wird notwendig sein, zeitnahe Zusätze wie z. B. hinzuzufügen 'jung' or „im Jahr [JAHR]“ um jünger aussehende Bilder zu erzeugen.

Mit einer prominenten, viel fotografierten und beständigen Karriere, die sich über fast 40 Jahre erstreckt, ist die Schauspielerin Jennifer Connelly eine der wenigen Berühmtheiten in LAION, die es Stable Diffusion ermöglichen, eine Reihe von Altersgruppen darzustellen. Quelle: Prepack Stable Diffusion, lokal, v1.4-Checkpoint; altersbedingte Aufforderungen.

Dies ist vor allem auf die Verbreitung digitaler (statt teurer, emulsionsbasierter) Pressefotografie ab Mitte der 2000er Jahre und das spätere Wachstum des Bildausgabevolumens aufgrund höherer Breitbandgeschwindigkeiten zurückzuführen.

Das gerenderte Bild wird in Stable Diffusion an Img2Img weitergeleitet, wo ein „Fokusbereich“ ausgewählt wird und ein neues Rendering in maximaler Größe nur für diesen Bereich erstellt wird, sodass Stable Diffusion alle verfügbaren Ressourcen auf die Neuerstellung des Gesichts konzentrieren kann.

Das gerenderte Bild wird an Img2Img in Stable Diffusion weitergeleitet, wo ein „Fokusbereich“ ausgewählt wird und nur von diesem Bereich ein neues Rendering in maximaler Größe erstellt wird, sodass Stable Diffusion alle verfügbaren Ressourcen auf die Neuerstellung des Gesichts konzentrieren kann.

Zusammenfügen des „High Attention“-Gesichts wieder in den Originalrendering. Abgesehen von Gesichtern funktioniert dieser Prozess nur mit Objekten, die ein potenziell bekanntes, zusammenhängendes und integrales Erscheinungsbild haben, wie zum Beispiel ein Teil des Originalfotos, der ein bestimmtes Objekt hat, wie zum Beispiel eine Uhr oder ein Auto. Das Hochskalieren eines Abschnitts beispielsweise einer Wand führt zu einer sehr seltsam aussehenden, wieder zusammengesetzten Wand, da die Fliesen-Renderings beim Rendern keinen größeren Kontext für dieses „Puzzleteil“ hatten.

Das Gesicht mit der höchsten Aufmerksamkeit wird wieder in das Original-Rendering eingefügt. Neben Gesichtern funktioniert dieser Prozess nur bei Objekten, die ein bekanntes, einheitliches und einheitliches Erscheinungsbild aufweisen, beispielsweise bei einem Teil des Originalfotos, der ein bestimmtes Objekt wie eine Uhr oder ein Auto zeigt. Das Hochskalieren eines Wandabschnitts führt beispielsweise zu einer sehr seltsam aussehenden, neu zusammengesetzten Wand, da die Kachel-Renderings beim Rendern keinen größeren Kontext für dieses „Puzzleteil“ hatten.

Einige Prominente in der Datenbank sind zeitlich „eingefroren“, entweder weil sie früh starben (wie Marilyn Monroe) oder nur kurzzeitig in den Mainstream gelangten und in kurzer Zeit eine große Anzahl von Bildern produzierten. Polling Stable Diffusion bietet eine Art „aktuellen“ Popularitätsindex für moderne und ältere Stars. Für einige ältere und aktuelle Prominente gibt es in den Quelldaten nicht genügend Bilder, um ein sehr gutes Abbild zu erhalten, während die anhaltende Popularität bestimmter längst verstorbener oder anderweitig verblasster Stars dafür sorgt, dass ihr Abbild aus dem System abgerufen werden kann.

Stabile Diffusions-Renderings zeigen schnell, welche berühmten Gesichter in den Trainingsdaten gut dargestellt sind. Trotz ihrer enormen Beliebtheit als ältere Teenagerin zum Zeitpunkt des Verfassens dieses Artikels war Millie Bobby Brown jünger und weniger bekannt, als die LAION-Quelldatensätze aus dem Internet entfernt wurden, was eine qualitativ hochwertige Ähnlichkeit mit Stable Diffusion derzeit problematisch macht.

Wo die Daten verfügbar sind, könnten kachelbasierte Up-Res-Lösungen in Stable Diffusion über die Fokussierung auf das Gesicht hinausgehen: Sie könnten potenziell noch genauere und detailliertere Gesichter ermöglichen, indem sie die Gesichtsmerkmale aufschlüsseln und die gesamte Kraft der lokalen GPU nutzen Ressourcen für hervorstechende Merkmale einzeln vor dem Wiederzusammenbau – ein Prozess, der derzeit wiederum manuell erfolgt.

Dies ist nicht auf Gesichter beschränkt, sondern auf Teile von Objekten, die mindestens genauso vorhersehbar im größeren Kontext des Hostobjekts platziert sind und den Einbettungen auf hoher Ebene entsprechen, die man vernünftigerweise in einer Hyperskala erwarten kann Datensatz.

Die wirkliche Grenze ist die Menge der verfügbaren Referenzdaten im Datensatz, da tiefgreifend wiederholte Details letztendlich völlig „halluziniert“ (d. h. fiktiv) und weniger authentisch werden.

Solche granularen Vergrößerungen auf hohem Niveau funktionieren im Fall von Jennifer Connelly, weil sie in einer Reihe von Altersgruppen gut vertreten ist LAION-Ästhetik (die primäre Teilmenge von LAION 5B die Stable Diffusion verwendet) und im Allgemeinen über LAION; in vielen anderen Fällen würde die Genauigkeit aufgrund fehlender Daten leiden, sodass entweder eine Feinabstimmung (zusätzliches Training, siehe „Anpassung“ unten) oder eine Textinversion (siehe unten) erforderlich wäre.

Kacheln sind eine leistungsstarke und relativ kostengünstige Möglichkeit, die Stable Diffusion zu aktivieren, um eine hochauflösende Ausgabe zu erzeugen, aber eine algorithmische gekachelte Hochskalierung dieser Art kann, wenn ihr ein breiterer Aufmerksamkeitsmechanismus auf höherer Ebene fehlt, möglicherweise hinter den erhofften Ergebnissen zurückbleiben. für Standards für eine Reihe von Inhaltstypen.

2: Probleme mit menschlichen Gliedmaßen angehen

Stable Diffusion wird seinem Namen nicht gerecht, wenn es um die Darstellung der Komplexität menschlicher Extremitäten geht. Hände können sich zufällig vermehren, Finger verschmelzen, dritte Beine erscheinen ungebeten und vorhandene Gliedmaßen verschwinden spurlos. Zu seiner Verteidigung muss man sagen, dass Stable Diffusion das gleiche Problem wie seine Kollegen und ganz sicher auch mit DALL-E 2 hat.

Nicht bearbeitete Ergebnisse von DALL-E 2 und Stable Diffusion (1.4) Ende August 2022, beide zeigen Probleme mit Gliedmaßen. Die Aufforderung lautet „Eine Frau umarmt einen Mann“

Unbearbeitete Ergebnisse von DALL-E 2 und Stable Diffusion (1.4) Ende August 2022, die beide Probleme mit Gliedmaßen zeigen. Die Aufforderung lautet: „Eine Frau umarmt einen Mann.“

Fans von Stable Diffusion, die hoffen, dass der bevorstehende 1.5-Checkpoint (eine intensiver trainierte Version des Modells mit verbesserten Parametern) die Gliedmaßenverwirrung lösen würde, werden wahrscheinlich enttäuscht sein. Das neue Modell, das in veröffentlicht wird etwa zwei Wochenwird derzeit auf dem kommerziellen Portal stabile.ai uraufgeführt DreamStudio, das standardmäßig 1.5 verwendet und in dem Benutzer die neue Ausgabe mit Renderings von ihren lokalen oder anderen 1.4-Systemen vergleichen können:

Quelle: Local 1.4 Prepack und https://beta.dreamstudio.ai/

Wie so oft könnte die Datenqualität die Hauptursache sein.

Die Open-Source-Datenbanken, die Bildsynthesesysteme wie Stable Diffusion und DALL-E 2 vorantreiben, sind in der Lage, viele Bezeichnungen sowohl für einzelne Menschen als auch für zwischenmenschliche Handlungen bereitzustellen. Diese Etiketten werden symbiotisch mit den zugehörigen Bildern oder Bildsegmenten trainiert.

Benutzer von Stable Diffusion können die im Modell trainierten Konzepte erkunden, indem sie den LAION-aesthetics-Datensatz abfragen, einen Teilsatz des größeren LAION 5B-Datensatzes, der das System antreibt. Die Bilder sind nicht nach ihren alphabetischen Bezeichnungen geordnet, sondern nach ihrer „ästhetischen Bewertung“. Quelle: https://rom1504.github.io/clip-retrieval/

Benutzer von Stable Diffusion können die in das Modell eingearbeiteten Konzepte erkunden, indem sie den LAION-Ästhetik-Datensatz abfragen, eine Teilmenge des größeren LAION 5B-Datensatzes, der das System antreibt. Die Bilder sind nicht nach ihren alphabetischen Bezeichnungen, sondern nach ihrem „Ästhetik-Score“ sortiert. Quelle: https://rom1504.github.io/clip-retrieval/

A gute Hierarchie Einzelne Bezeichnungen und Klassen, die zur Darstellung eines menschlichen Arms beitragen, wären etwa so Körper>Arm>Hand>Finger>[Unterziffern + Daumen]> [Ziffernsegmente]>Fingernägel.

Granulare semantische Segmentierung der Teile einer Hand. Selbst diese ungewöhnlich detaillierte Dekonstruktion lässt jeden „Finger“ als einzelne Einheit erscheinen und berücksichtigt nicht die drei Abschnitte eines Fingers und die zwei Abschnitte eines Daumens. Quelle: https://athitsos.utasites.cloud/publications/rezaei_petra2021.pdf

In der Realität ist es unwahrscheinlich, dass die Quellbilder über den gesamten Datensatz hinweg so konsistent mit Anmerkungen versehen werden, und unbeaufsichtigte Kennzeichnungsalgorithmen werden wahrscheinlich damit aufhören höher Ebene von beispielsweise „Hand“ und belassen Sie die inneren Pixel (die technisch gesehen „Finger“-Informationen enthalten) als unbeschriftete Masse von Pixeln, aus denen Merkmale willkürlich abgeleitet werden und die sich in späteren Renderings als störendes Element manifestieren können.

Wie es sein sollte (oben rechts, wenn nicht Upper-Cut) und wie es tendenziell ist (unten rechts), aufgrund begrenzter Ressourcen für die Beschriftung oder architektonischer Ausnutzung solcher Beschriftungen, wenn sie im Datensatz vorhanden sind.

Wenn ein latentes Diffusionsmodell also so weit kommt, einen Arm darzustellen, wird es mit ziemlicher Sicherheit zumindest versuchen, eine Hand am Ende dieses Arms darzustellen, weil Arm>Hand ist die minimal erforderliche Hierarchie, ziemlich weit oben in dem, was die Architektur über die „menschliche Anatomie“ weiß.

Danach dürften die „Finger“ die kleinste Gruppierung sein, obwohl bei der Darstellung menschlicher Hände noch 14 weitere Finger-/Daumenunterteile zu berücksichtigen sind.

Wenn diese Theorie zutrifft, gibt es keine wirkliche Lösung, da es branchenweit an Budget für manuelle Annotationen mangelt und es an ausreichend effektiven Algorithmen mangelt, die die Beschriftung automatisieren und gleichzeitig niedrige Fehlerraten erzeugen könnten. Tatsächlich verlässt sich das Modell derzeit möglicherweise auf die Konsistenz der menschlichen Anatomie, um die Mängel des Datensatzes auszugleichen, auf dem es trainiert wurde.

Ein möglicher Grund dafür kann nicht Verlassen Sie sich in letzter Zeit darauf vorgeschlage Beim Stable Diffusion Discord geht es darum, dass das Modell hinsichtlich der richtigen Anzahl an Fingern, die eine (realistische) menschliche Hand haben sollte, verwirrt sein könnte, da die von LAION abgeleitete Datenbank, die ihr zugrunde liegt, Zeichentrickfiguren enthält, die möglicherweise weniger Finger haben (was an sich schon der Fall ist). eine arbeitssparende Abkürzung).

Zwei der potenziellen Schuldigen des „Missing-Finger“-Syndroms in Stable Diffusion und ähnlichen Modellen. Unten finden Sie Beispiele für Cartoon-Hände aus dem LAION-Ästhetik-Datensatz, der Stable Diffusion unterstützt. Quelle: https://www.youtube.com/watch?v=0QZFQ3gbd6I

Zwei der möglichen Ursachen für das „Missing-Finger“-Syndrom in Stable Diffusion und ähnlichen Modellen. Unten sehen Sie Beispiele von Cartoon-Hände aus dem LAION-Ästhetik-Datensatz, der Stable Diffusion zugrunde liegt. Quelle: https://www.youtube.com/watch?v=0QZFQ3gbd6I

Wenn dies zutrifft, besteht die einzig offensichtliche Lösung darin, das Modell neu zu trainieren und nicht realistische, auf Menschen basierende Inhalte auszuschließen und sicherzustellen, dass echte Auslassungen (z. B. Amputierte) angemessen als Ausnahmen gekennzeichnet werden. Allein aus Sicht der Datenkuratierung wäre dies eine ziemliche Herausforderung, insbesondere für ressourcenarme Community-Bemühungen.

Der zweite Ansatz wäre die Anwendung von Filtern, die solche Inhalte (z. B. „Hand mit drei/fünf Fingern“) von der Darstellung beim Rendern ausschließen, ähnlich wie es OpenAI bis zu einem gewissen Grad getan hat. gefiltert GPT-3 und DALL-E2, sodass ihre Ausgabe reguliert werden konnte, ohne dass die Quellmodelle neu trainiert werden mussten.

Bei Stable Diffusion kann die semantische Unterscheidung zwischen Fingern und sogar Gliedmaßen schrecklich verschwimmen, was an die „Body-Horror“-Horrorfilme der 1980er-Jahre von David Cronenberg erinnert. Quelle: https://old.reddit.com/r/StableDiffusion/comments/x6htf6/a_study_of_stable_diffusions_strange_relationship/

Für Stable Diffusion kann die semantische Unterscheidung zwischen Fingern und sogar Gliedmaßen auf schreckliche Weise verschwimmen, was an die „Body Horror“-Horrorfilme der 1980er Jahre von Leuten wie David Cronenberg erinnert. Quelle: https://old.reddit.com/r/StableDiffusion/comments/x6htf6/a_study_of_stable_diffusions_strange_relationship/

Dies würde jedoch wiederum Etiketten erfordern, die möglicherweise nicht auf allen betroffenen Bildern vorhanden sind, was uns vor der gleichen logistischen und budgetären Herausforderung stellt.

Man könnte argumentieren, dass es zwei verbleibende Wege gibt: das Problem mit mehr Daten zu untersuchen und Interpretationssysteme von Drittanbietern einzusetzen, die eingreifen können, wenn dem Endbenutzer physische Fehler der hier beschriebenen Art präsentiert werden (letzteres würde OpenAI zumindest eine Methode an die Hand geben, Rückerstattungen für „Body Horror“-Renderings zu leisten, wenn das Unternehmen dazu motiviert wäre).

3: Anpassung

Eine der aufregendsten Möglichkeiten für die Zukunft der stabilen Verbreitung ist die Aussicht, dass Benutzer oder Organisationen überarbeitete Systeme entwickeln; Modifikationen, die es ermöglichen, Inhalte außerhalb der vorab trainierten LAION-Sphäre in das System zu integrieren – idealerweise ohne den unkontrollierbaren Aufwand, das gesamte Modell erneut zu trainieren, oder das Risiko, das mit dem Training einer großen Menge neuartiger Bilder für ein vorhandenes, ausgereiftes und leistungsfähiges Modell verbunden ist Modell.

Zur Analogie: Kommen zwei weniger begabte Schüler in eine fortgeschrittene Klasse mit dreißig Schülern, werden sie sich entweder integrieren und aufholen oder als Ausreißer durchfallen; in beiden Fällen wird der Klassendurchschnitt wahrscheinlich nicht beeinträchtigt. Kommen jedoch 15 weniger begabte Schüler hinzu, wird die Notenkurve der gesamten Klasse wahrscheinlich darunter leiden.

Ebenso kann das synergetische und recht empfindliche Netzwerk von Beziehungen, das im Laufe eines dauerhaften und teuren Modelltrainings aufgebaut wird, durch übermäßige neue Daten beeinträchtigt oder in einigen Fällen sogar zerstört werden, was die Ausgabequalität des Modells insgesamt verringert.

Dies ist vor allem dann sinnvoll, wenn Ihr Interesse darin besteht, das konzeptionelle Verständnis des Modells von Beziehungen und Dingen vollständig zu kapern und es für die ausschließliche Produktion von Inhalten zu verwenden, die dem von Ihnen hinzugefügten zusätzlichen Material ähneln.

Somit Ausbildung 500,000 Simpsons Wenn Sie Frames in einen vorhandenen Kontrollpunkt für stabile Diffusion integrieren, erhalten Sie wahrscheinlich letztendlich eine bessere Lösung Simpsons Simulator, als der ursprüngliche Build hätte bieten können, vorausgesetzt, dass genügend breite semantische Beziehungen den Prozess überleben (d. h Homer Simpson isst einen Hotdog, was möglicherweise Material über Hotdogs erfordert, das nicht in Ihrem zusätzlichen Material enthalten war, aber bereits im Kontrollpunkt vorhanden war), und vorausgesetzt, dass Sie nicht plötzlich von Simpsons Inhalt zum Erstellen fabelhafte Landschaft von Greg Rutkowski – weil die Aufmerksamkeit Ihres nachtrainierten Modells massiv abgelenkt wurde und es bei solchen Dingen nicht mehr so gut ist wie früher.

Ein bemerkenswertes Beispiel hierfür ist Waifu-Verbreitung, was erfolgreich war 56,000 Anime-Bilder nachtrainiert in einen abgeschlossenen und trainierten Stable Diffusion-Checkpoint. Für einen Hobbyisten ist das allerdings eine schwierige Aufgabe, da das Modell mindestens 30 GB VRAM benötigt, weit mehr als das, was auf der Verbraucherebene in den kommenden Versionen der 40XX-Serie von NVIDIA wahrscheinlich verfügbar sein wird.

Das Training benutzerdefinierter Inhalte in Stable Diffusion: Das Modell brauchte zwei Wochen nach dem Training, um diese Darstellungsebene auszugeben. Die sechs Bilder auf der linken Seite zeigen den Fortschritt des Modells bei der Erstellung einer themenkohärenten Ausgabe basierend auf den neuen Trainingsdaten. Quelle: https://gigazine.net/gsc_news/en/20220121-how-waifu-labs-create/

Das Training benutzerdefinierter Inhalte in Stable Diffusion über Waifu-Diffusion: Das Modell brauchte zwei Wochen nach dem Training, um diese Darstellungsebene auszugeben. Die sechs Bilder auf der linken Seite zeigen den Fortschritt des Modells im Verlauf des Trainings bei der Erstellung einer themenkohärenten Ausgabe auf der Grundlage der neuen Trainingsdaten. Quelle: https://gigazine.net/gsc_news/en/20220121-how-waifu-labs-create/

Für solche „Forks“ von Stable Diffusion-Checkpoints könnte ein großer Aufwand betrieben werden, der jedoch durch technische Schulden behindert wird. Entwickler im offiziellen Discord haben bereits angedeutet, dass spätere Checkpoint-Versionen nicht unbedingt abwärtskompatibel sein werden, selbst mit einer Prompt-Logik, die möglicherweise mit einer früheren Version funktioniert hat. Ihr Hauptinteresse liegt darin, das bestmögliche Modell zu erhalten, und nicht darin, ältere Anwendungen und Prozesse zu unterstützen.

Daher gibt es für ein Unternehmen oder eine Einzelperson, die beschließt, einen Kontrollpunkt in ein kommerzielles Produkt umzuwandeln, praktisch keinen Weg zurück. Ihre Version des Modells ist zu diesem Zeitpunkt ein „Hard Fork“ und kann nicht von den Upstream-Vorteilen späterer Versionen von stability.ai profitieren – was eine ziemliche Verpflichtung darstellt.

Die aktuelle und größere Hoffnung auf eine individuelle Anpassung von Stable Diffusion ist Textinversion, wo der Benutzer in einer kleinen Handvoll trainiert CLIP-ausgerichtete Bilder.

Die textuelle Inversion ist eine Zusammenarbeit zwischen der Universität Tel Aviv und NVIDIA und ermöglicht das Einlernen diskreter und neuartiger Entitäten, ohne die Fähigkeiten des Quellmodells zu zerstören. Quelle: https://textual-inversion.github.io/

Die offensichtliche Hauptbeschränkung der Textumkehr besteht darin, dass eine sehr geringe Anzahl von Bildern empfohlen wird – nur fünf. Dadurch entsteht effektiv eine begrenzte Einheit, die für Stilübertragungsaufgaben nützlicher sein kann als für das Einfügen fotorealistischer Objekte.

Dennoch finden derzeit in den verschiedenen Stable Diffusion Discords Experimente statt, die eine viel höhere Anzahl von Trainingsbildern verwenden, und es bleibt abzuwarten, wie produktiv sich die Methode erweisen könnte. Auch hier erfordert die Technik viel VRAM, Zeit und Geduld.

Aufgrund dieser einschränkenden Faktoren müssen wir möglicherweise eine Weile warten, bis wir einige der ausgefeilteren Textinversionsexperimente von Stable Diffusion-Enthusiasten sehen – und ob dieser Ansatz Sie auf eine Weise „ins Bild setzen“ kann, die besser aussieht als ein Photoshop-Ausschneiden und Einfügen, während gleichzeitig die erstaunliche Funktionalität der offiziellen Kontrollpunkte erhalten bleibt.

Erstveröffentlichung am 6. September 2022.

Verwandte Themen:-Funktion Bildsynthese Stable Diffusion

Als nächstes

Data Science vs. Data Mining: Hauptunterschiede

Verpassen Sie nicht

Data Science vs. Informatik: Hauptunterschiede

Martin Anderson

Autor zum Thema maschinelles Lernen, Fachspezialist für die Synthese menschlicher Bilder. Ehemaliger Leiter für Forschungsinhalte bei Metaphysic.ai.
Persönliche Seite: martinanderson.ai
Kontakt: [E-Mail geschützt]
Twitter: @manders_ai

Unite.AI

Drei Herausforderungen für eine stabile Verbreitung

1: Optimierung kachelbasierter Pipelines

2: Probleme mit menschlichen Gliedmaßen angehen

3: Anpassung

Vielleicht gefällt dir