Umělá inteligence

Stability AI vydává text-to-image model DeepFloyd IF

Published May 5, 2023

Updated April 5, 2026

Alex McFarland

Stability AI a její multimodální laboratoř pro výzkum umělé inteligence, DeepFloyd, oznámily výzkumné vydání DeepFloyd IF, špičkového text-to-image kaskádového modelu pixelové difuze. Model je inicialně vydán pod nevýdělečnou, výzkumnou licencí, ale je plánováno otevřené vydání v budoucnu.

DeepFloyd IF nabízí několik pozoruhodných funkcí, včetně:

Hluboké porozumění textovým podnětům: Model používá T5-XXL-1.1 jako textový encoder, s mnoha textově-obrázkovými vrstvami, které zajišťují lepší sladění mezi podněty a obrázky.
Koherentní a jasný text spolu s vygenerovanými obrázky: DeepFloyd IF může generovat obrázky obsahující objekty s rozličnými vlastnostmi a prostorovými vztahy.
Vysoký stupeň fotorealismu: Model dosáhl působivého zero-shot FID skóre 6,66 na datové sadě COCO.
Změna poměru stran: Model může generovat obrázky s nestandardními poměry stran, včetně vertikálních, horizontálních a standardních čtvercových poměrů.
Zero-shot překlad obrázků: Model může měnit styl, vzory a detaily obrázku, zatímco zachovává jeho základní formu.

Níže jsou einige příkladové koncepty vytvořené DeepFloyd IF:

Modulární, kaskádový, pixelový difuzní design DeepFloyd IF se skládá z několika neuronových modulů, které interagují synergicky. Model pracuje v pixelovém prostoru, zpracovává data s vysokým rozlišením v kaskádovém způsobem pomocí individuálně trénovaných modelů na různých rozlišeních. To zahrnuje základní model, který generuje vzorky s nízkým rozlišením, a následné modely super-rozlišení, které produkují obrázky s vysokým rozlišením.

Model byl trénován na vlastní datové sadě LAION-A, která obsahuje 1 miliardu párů (obrázek, text), podmnožinu anglické části datové sady LAION-5B. Byly použity vlastní filtry DeepFloyd k odstranění watermarked, NSFW a jiných nevhodných obsahů.

Proces DeepFloyd IF

Inicialně je DeepFloyd IF vydán pod výzkumnou licencí. Výzkumníci mají za cíl povzbudit rozvoj nových aplikací napříč doménami, jako je umění, design, vyprávění příběhů, virtuální realita a přístupnost. K inspiraci potenciálního výzkumu navrhli několik technických, akademických a etických výzkumných otázek.

Technické výzkumné otázky zahrnují:

Optimalizace modelu IF pro zlepšení výkonu, škálovatelnosti a efektivity.
Zlepšení kvality výstupu migliorováním vzorkování, směrováním nebo jemným laděním modelu.
Použití technik používaných k modifikaci výstupu Stable Diffusion na DeepFloyd IF.

Akademické výzkumné otázky zahrnují:

Prozkoumání role předtrénování pro transferové učení.
Zlepšení kontroly modelu nad generováním obrázků.
Rozšíření schopností modelu za hranice text-to-image syntézy integrováním více modality.
Hodnocení interpretability modelu pro zlepšení porozumění vizuálním funkcím generovaných obrázků.

Etické výzkumné otázky zahrnují:

Identifikace a zmírnění biasů v DeepFloyd IF.
Hodnocení dopadu modelu na sociální média a generování obsahu.
Vyvinutí efektivní detekce falešných obrázků, která využívá model.

K přístupu k váhám modelu musí uživatelé přijmout licenci na Hugging Face space. Pro více informací můžete navštívit webovou stránku modelu, GitHub repozitář, Gradio demo, nebo se připojit k veřejným diskuzím prostřednictvím Linktree DeepFloyd.

Unite.AI

Stability AI vydává text-to-image model DeepFloyd IF

You may like