Stummel Diffusionsmodelle in der KI – Alles, was Sie wissen müssen – Unite.AI
Vernetzen Sie sich mit uns

Artificial Intelligence

Diffusionsmodelle in der KI – alles, was Sie wissen müssen

mm

Veröffentlicht

 on

Eine Collage menschlicher Gesichter, erstellt mit einem KI-Bildgenerator

Im KI-Ökosystem bestimmen Diffusionsmodelle die Richtung und das Tempo des technologischen Fortschritts. Sie revolutionieren die Art und Weise, wie wir mit Komplexität umgehen generative KI Aufgaben. Diese Modelle basieren auf der Mathematik der Gaußschen Prinzipien, der Varianz, Differentialgleichungen und generativen Folgen. (Den Fachjargon erklären wir weiter unten)

Moderne KI-zentrierte Produkte und Lösungen, die von Nvidia, Google, Adobe und OpenAI entwickelt wurden, haben Diffusionsmodelle in den Mittelpunkt der Aufmerksamkeit gerückt. DALL.E 2, Stable Diffusion und Zwischendurch sind prominente Beispiele für Diffusionsmodelle, die in letzter Zeit im Internet die Runde machen. Benutzer stellen eine einfache Textaufforderung als Eingabe zur Verfügung, und diese Modelle können sie in realistische Bilder umwandeln, wie zum Beispiel das unten gezeigte.

Ein mit Midjourney v5 mithilfe der Eingabeaufforderung erstelltes Bild: leuchtende kalifornische Mohnblumen.

Ein mit Midjourney v5 mithilfe der Eingabeaufforderung erstelltes Bild: leuchtende kalifornische Mohnblumen. Quelle: Zwischendurch

Lassen Sie uns die grundlegenden Arbeitsprinzipien von Diffusionsmodellen untersuchen und wie sie die Richtungen und Normen der Welt, wie wir sie heute sehen, verändern.

Was sind Diffusionsmodelle?

Laut der Forschungspublikation „Entrauschende Diffusions-Wahrscheinlichkeitsmodelle„Die Diffusionsmodelle sind definiert als:

„Ein Diffusionsmodell oder probabilistisches Diffusionsmodell ist eine parametrisierte Markov-Kette, die mithilfe von Variationsinferenz trainiert wird, um nach endlicher Zeit Proben zu erzeugen, die mit den Daten übereinstimmen.“

Einfach ausgedrückt können Diffusionsmodelle Daten generieren, die denen ähneln, auf denen sie trainiert werden. Wenn das Modell anhand von Katzenbildern trainiert, kann es ähnlich realistische Katzenbilder erzeugen.

Versuchen wir nun, die oben erwähnte technische Definition aufzuschlüsseln. Die Diffusionsmodelle sind vom Funktionsprinzip und der mathematischen Grundlage eines probabilistischen Modells inspiriert, das das Verhalten eines Systems analysieren und vorhersagen kann, das sich im Laufe der Zeit ändert, beispielsweise die Vorhersage der Aktienmarktrendite oder der Ausbreitung der Pandemie.

Die Definition besagt, dass es sich um parametrisierte Markov-Ketten handelt, die mit Variationsinferenz trainiert wurden. Markov-Ketten sind mathematische Modelle, die ein System definieren, das im Laufe der Zeit zwischen verschiedenen Zuständen wechselt. Der aktuelle Zustand des Systems kann nur die Wahrscheinlichkeit des Übergangs in einen bestimmten Zustand bestimmen. Mit anderen Worten: Der aktuelle Zustand eines Systems enthält die möglichen Zustände, denen ein System zu einem bestimmten Zeitpunkt folgen oder die es annehmen kann.

Das Training des Modells mithilfe von Variationsinferenz erfordert komplexe Berechnungen für Wahrscheinlichkeitsverteilungen. Ziel ist es, die genauen Parameter der Markov-Kette zu finden, die nach einer bestimmten Zeit mit den beobachteten (bekannten oder tatsächlichen) Daten übereinstimmen. Dieser Prozess minimiert den Wert der Verlustfunktion des Modells, der die Differenz zwischen dem vorhergesagten (unbekannten) und dem beobachteten (bekannten) Zustand darstellt.

Nach dem Training kann das Modell Stichproben generieren, die den beobachteten Daten entsprechen. Diese Proben stellen mögliche Trajektorien oder Zustände dar, denen das System im Laufe der Zeit folgen oder die es erfassen könnte, und jede Trajektorie hat eine andere Eintrittswahrscheinlichkeit. Daher kann das Modell das zukünftige Verhalten des Systems vorhersagen, indem es eine Reihe von Stichproben generiert und deren jeweilige Wahrscheinlichkeiten (Wahrscheinlichkeit des Eintretens dieser Ereignisse) ermittelt.

Wie interpretiert man Diffusionsmodelle in der KI?

Diffusionsmodelle sind tiefgreifende generative Modelle, die durch Hinzufügen von Rauschen (Gaußsches Rauschen) zu den verfügbaren Trainingsdaten (auch als Vorwärtsdiffusionsprozess bezeichnet) und anschließender Umkehrung des Prozesses (bekannt als Entrauschen oder Rückwärtsdiffusionsprozess) arbeiten, um die Daten wiederherzustellen. Das Modell lernt nach und nach, das Rauschen zu entfernen. Dieser erlernte Entrauschungsprozess generiert neue, qualitativ hochwertige Bilder aus zufälligen Seeds (zufällig verrauschten Bildern), wie in der Abbildung unten dargestellt.

Umgekehrter Diffusionsprozess: Ein verrauschtes Bild wird entrauscht, um über ein trainiertes Diffusionsmodell das Originalbild wiederherzustellen (oder seine Variationen zu erzeugen).

Umgekehrter Diffusionsprozess: Ein verrauschtes Bild wird entrauscht, um über ein trainiertes Diffusionsmodell das Originalbild wiederherzustellen (oder seine Variationen zu erzeugen). Quelle: Entrauschende Diffusions-Wahrscheinlichkeitsmodelle

3 Diffusionsmodellkategorien

Es gibt drei grundlegende mathematische Rahmenwerke die die Wissenschaft hinter Diffusionsmodellen untermauern. Alle drei arbeiten nach den gleichen Prinzipien: Rauschen hinzufügen und dann entfernen, um neue Samples zu erzeugen. Lassen Sie uns sie unten besprechen.

Ein Diffusionsmodell fügt einem Bild Rauschen hinzu und entfernt es.

Ein Diffusionsmodell fügt einem Bild Rauschen hinzu und entfernt es. Quelle: Diffusionsmodelle in Vision: Eine Umfrage

1. Denoising Diffusion Probabilistic Models (DDPMs)

Wie oben erläutert, handelt es sich bei DDPMs um generative Modelle, die hauptsächlich dazu dienen, Rauschen aus Bild- oder Audiodaten zu entfernen. Sie haben beeindruckende Ergebnisse bei verschiedenen Bild- und Audio-Rauschunterdrückungsaufgaben gezeigt. Beispielsweise nutzt die Filmindustrie moderne Bild- und Videoverarbeitungstools, um die Produktionsqualität zu verbessern.

2. Noise-Conditioned Score-Based Generative Models (SGMs)

SGMs können aus einer bestimmten Verteilung neue Stichproben generieren. Sie funktionieren, indem sie eine Schätzwertfunktion erlernen, die die logarithmische Dichte der Zielverteilung schätzen kann. Bei der Schätzung der Protokolldichte wird für verfügbare Datenpunkte davon ausgegangen, dass sie Teil eines unbekannten Datensatzes (Testsatzes) sind. Diese Score-Funktion kann dann aus der Verteilung neue Datenpunkte generieren.

Zum Beispiel tiefe Fälschungen sind dafür berüchtigt, gefälschte Videos und Audios berühmter Persönlichkeiten zu produzieren. Aber sie werden meistens zugeschrieben Generative Adversarial Networks (GANs). Allerdings haben SGMs ähnliche Fähigkeiten gezeigt – manchmal sogar übertreffen – bei der Generierung hochwertiger Promi-Gesichter. Darüber hinaus können SGMs dazu beitragen, Gesundheitsdatensätze zu erweitern, die aufgrund strenger Vorschriften und Industriestandards nicht in großen Mengen verfügbar sind.

3. Stochastische Differentialgleichungen (SDEs)

SDEs beschreiben zeitliche Veränderungen in zufälligen Prozessen. Sie werden häufig in der Physik und auf den Finanzmärkten eingesetzt und beinhalten Zufallsfaktoren, die die Marktergebnisse erheblich beeinflussen.

Beispielsweise sind die Preise von Rohstoffen sehr dynamisch und werden von einer Reihe zufälliger Faktoren beeinflusst. SDEs berechnen Finanzderivate wie Terminkontrakte (wie Rohölkontrakte). Sie können die Schwankungen modellieren und günstige Preise genau berechnen, um ein Gefühl der Sicherheit zu vermitteln.

Hauptanwendungen von Diffusionsmodellen in der KI

Schauen wir uns einige weit verbreitete Praktiken und Anwendungen von Diffusionsmodellen in der KI an.

Hochwertige Videogenerierung

Erstellen von High-End-Videos mit tiefe Lernen ist eine Herausforderung, da eine hohe Kontinuität der Videobilder erforderlich ist. Hier kommen Diffusionsmodelle zum Einsatz, da sie eine Teilmenge von Videobildern generieren können, um die fehlenden Bilder zu füllen, was zu qualitativ hochwertigen und flüssigen Videos ohne Latenz führt.

Forscher haben das entwickelt Flexibles Diffusionsmodell und verbleibende Videodiffusion Techniken, die diesem Zweck dienen. Diese Modelle können auch realistische Videos produzieren, indem sie nahtlos KI-generierte Frames zwischen den tatsächlichen Frames einfügen.

Diese Modelle können einfach die FPS (Bilder pro Sekunde) eines Videos mit niedrigen FPS erhöhen, indem sie Dummy-Bilder hinzufügen, nachdem sie die Muster aus den verfügbaren Bildern gelernt haben. Fast ohne Bildverlust können diese Frameworks darüber hinaus Deep-Learning-basierte Modelle dabei unterstützen, KI-basierte Videos von Grund auf zu erstellen, die wie natürliche Aufnahmen von High-End-Kamera-Setups aussehen.

Eine große Auswahl bemerkenswerter KI-Videogeneratoren ist im Jahr 2023 verfügbar, um die Produktion und Bearbeitung von Videoinhalten schnell und unkompliziert zu gestalten.

Text-zu-Bild-Generierung

Text-zu-Bild-Modelle nutzen Eingabeaufforderungen, um qualitativ hochwertige Bilder zu generieren. Geben Sie beispielsweise die Eingabe „roter Apfel auf einem Teller“ ein und erstellen Sie ein fotorealistisches Bild eines Apfels auf einem Teller. Gemischte Verbreitung und LÖSCHEN sind zwei herausragende Beispiele für solche Modelle, die auf der Grundlage von Benutzereingaben hochrelevante und genaue Bilder generieren können.

Ebenfalls, GLIDE von OpenAI ist eine weitere weithin bekannte Lösung, die 2021 veröffentlicht wurde und fotorealistische Bilder mithilfe von Benutzereingaben erstellt. Später veröffentlichte OpenAI DALL.E-2, sein bisher fortschrittlichstes Bilderzeugungsmodell.

In ähnlicher Weise hat Google auch ein Bildgenerierungsmodell namens entwickelt Imagen, , das ein großes Sprachmodell verwendet, um ein tiefes Textverständnis des Eingabetextes zu entwickeln und dann fotorealistische Bilder zu erzeugen.

Wir haben andere beliebte Bildgenerierungstools wie Midjourney und Stable Diffusion erwähnt (DreamStudio) über. Schauen Sie sich unten ein Bild an, das mit Stable Diffusion erstellt wurde.

Eine Collage aus menschlichen Gesichtern, erstellt mit Stable Diffusion 1.5

Ein Bild, das mit Stable Diffusion 1.5 unter Verwendung der folgenden Eingabeaufforderung erstellt wurde: „Collagen, hyperrealistisch, viele Variationen, Porträt des sehr alten Thom Yorke, Gesichtsvariationen, Singer-Songwriter, (Seiten-)Profil, verschiedene Altersgruppen, Makrolinse, Grenzraum, von.“ Lee Bermejo, Alphonse Mucha und Greg Rutkowski, Graubart, glattes Gesicht, Wangenknochen“

Diffusionsmodelle in der KI – Was ist in der Zukunft zu erwarten?

Diffusionsmodelle haben ein vielversprechendes Potenzial als robuster Ansatz zur Generierung hochwertiger Proben aus komplexen Bild- und Videodatensätzen gezeigt. Durch die Verbesserung der menschlichen Fähigkeit, Daten zu nutzen und zu manipulieren, können Diffusionsmodelle möglicherweise die Welt, wie wir sie heute sehen, revolutionieren. Wir können davon ausgehen, dass noch mehr Anwendungen von Diffusionsmodellen zu einem integralen Bestandteil unseres täglichen Lebens werden.

Allerdings sind Diffusionsmodelle nicht die einzige generative KI-Technik. Forscher nutzen auch Generative Adversarial Networks (GANs), Variational Autoencoderund flussbasierte tiefe generative Modelle zur Generierung von KI-Inhalten. Das Verständnis der grundlegenden Merkmale, die Diffusionsmodelle von anderen generativen Modellen unterscheiden, kann in den kommenden Tagen dazu beitragen, effektivere Lösungen zu entwickeln.

Um mehr über KI-basierte Technologien zu erfahren, besuchen Sie Unite.ai. Schauen Sie sich unten unsere kuratierten Ressourcen zu generativen KI-Tools an.