Stummel Stabilitäts-KI veröffentlicht Text-zu-Bild-Modell DeepFloyd IF – Unite.AI
Vernetzen Sie sich mit uns

Künstliche Intelligenz

Stabilitäts-KI veröffentlicht Text-zu-Bild-Modell DeepFloyd IF

Veröffentlicht

 on

Stabilität KI und sein multimodales KI-Forschungslabor DeepFloyd haben die Forschungsveröffentlichung von DeepFloyd IF angekündigt, einem hochmodernen kaskadierten Text-zu-Bild-Pixeldiffusionsmodell. Das Modell wird zunächst unter einer nichtkommerziellen, forschungsberechtigten Lizenz veröffentlicht, für die Zukunft ist jedoch eine Open-Source-Veröffentlichung geplant.

DeepFloyd IF verfügt über mehrere bemerkenswerte Funktionen, darunter:

  1. Verständnis der Deep-Text-Eingabeaufforderung: Das Modell verwendet T5-XXL-1.1 als Text-Encoder mit zahlreichen Text-Bild-Queraufmerksamkeitsebenen, die eine bessere Ausrichtung zwischen Eingabeaufforderungen und Bildern gewährleisten.
  2. Kohärenter und klarer Text neben generierten Bildern: DeepFloyd IF kann Bilder erzeugen, die Objekte mit unterschiedlichen Eigenschaften und räumlichen Beziehungen enthalten.
  3. Hoher Grad an Fotorealismus: Das Modell hat im COCO-Datensatz einen beeindruckenden Zero-Shot-FID-Score von 6.66 erreicht.
  4. Seitenverhältnisverschiebung: Das Modell kann Bilder mit nicht standardmäßigen Seitenverhältnissen generieren, einschließlich vertikaler, horizontaler und standardmäßiger quadratischer Seitenverhältnisse.
  5. Zero-Shot-Bild-zu-Bild-Übersetzungen: Das Modell kann den Stil, die Muster und die Details eines Bildes ändern und gleichzeitig seine Grundform beibehalten.

Nachfolgend finden Sie einige Beispielkonzepte, die von DeepFloyd IF erstellt wurden:

Das modulare, kaskadierte Pixeldiffusionsdesign von DeepFloyd IF besteht aus mehreren neuronalen Modulen, die synergetisch interagieren. Das Modell arbeitet im Pixelraum und verarbeitet hochauflösende Daten kaskadierend mithilfe individuell trainierter Modelle mit unterschiedlichen Auflösungen. Dabei handelt es sich um ein Basismodell, das niedrig aufgelöste Proben erzeugt, und aufeinanderfolgende Superauflösungsmodelle, die hochauflösende Bilder erzeugen.

Das Modell wurde auf einem benutzerdefinierten hochwertigen LAION-A-Datensatz trainiert, der 1 Milliarde (Bild-, Text-)Paare enthält, eine Teilmenge des englischen Teils des LAION-5B-Datensatzes. Die benutzerdefinierten Filter von DeepFloyd wurden verwendet, um mit Wasserzeichen versehene, NSFW- und andere unangemessene Inhalte zu entfernen.

Der Prozess von DeepFloyd IF

Zunächst wird DeepFloyd IF unter einer Forschungslizenz veröffentlicht. Ziel der Forscher ist es, die Entwicklung neuartiger Anwendungen in Bereichen wie Kunst, Design, Geschichtenerzählen, virtuelle Realität und Barrierefreiheit zu fördern. Um potenzielle Forschung anzuregen, haben sie mehrere technische, akademische und ethische Forschungsfragen vorgeschlagen.

Zu den technischen Forschungsfragen gehören:

  • Optimierung des IF-Modells zur Verbesserung der Leistung, Skalierbarkeit und Effizienz.
  • Verbesserung der Ausgabequalität durch Verfeinerung der Stichprobenentnahme, Führung oder Feinabstimmung des Modells.
  • Anwenden von Techniken zur Änderung der Stable Diffusion-Ausgabe auf DeepFloyd IF.

Zu den wissenschaftlichen Forschungsfragen gehören:

  • Untersuchung der Rolle der Vorschulung für das Transferlernen.
  • Verbesserung der Kontrolle des Modells über die Bilderzeugung.
  • Erweiterung der Fähigkeiten des Modells über die Text-zu-Bild-Synthese hinaus durch die Integration mehrerer Modalitäten.
  • Bewerten der Interpretierbarkeit des Modells, um das Verständnis der visuellen Merkmale generierter Bilder zu verbessern.

Zu den ethischen Forschungsfragen gehören:

  • Identifizierung und Abschwächung von Vorurteilen in DeepFloyd IF.
  • Bewertung der Auswirkungen des Modells auf soziale Medien und die Generierung von Inhalten.
  • Entwicklung eines effektiven Fake-Image-Detektors, der das Modell nutzt.

Um auf die Gewichte des Modells zuzugreifen, müssen Benutzer die Lizenz von DeepFloyd akzeptieren Gesichtsraum umarmen. Weitere Informationen finden Sie auf der Website des Modells. GitHub-Repository, Gradio-Demo, oder nehmen Sie über DeepFloyd an öffentlichen Diskussionen teil Linienbaum.

Alex McFarland ist ein KI-Journalist und Autor, der sich mit den neuesten Entwicklungen in der künstlichen Intelligenz beschäftigt. Er hat mit zahlreichen KI-Startups und Publikationen weltweit zusammengearbeitet.