Spojte se s námi

Umělá inteligence

Směrem k LoRA, které mohou přežít upgrady verzí modelu

mm
ChatGPT-4o: variace na '1792x1024 celovečerní reportážní snímek lodičky plné vyřazených kovových figurek, představující realistické muže a ženy všech věkových kategorií a všech typů'

Od mého nedávné pokrytí růstu amatérských Hunyuan Video LoRA (malých, trénované soubory které mohou vložit vlastní osobnosti do mnohamiliardových základních modelů pro převod textu na video a obrázek na video), počet souvisejících LoRA dostupných v komunitě Civit vzrostl o 185 %.

Navzdory skutečnosti, že neexistují žádné obzvláště snadné nebo nenáročné způsoby, jak vytvořit Hunyuan Video LoRA, katalog celebrit a tematických LoRA v Civit se každým dnem rozrůstá. Zdroj: https://civitai.com/

Navzdory skutečnosti, že neexistují žádné obzvláště snadné nebo nenáročné způsoby, jak vytvořit Hunyuan Video LoRA, katalog celebrit a tematických LoRA v Civit se každým dnem rozrůstá. Zdroj: https://civitai.com/

Stejná komunita, která se snaží naučit, jak produkovat tyto „doplňkové osobnosti“ pro Hunyuan Video (HV), je také ulcerující za slíbené vydání an z obrázku na video (I2V) funkce v Hunyuan Video.

S ohledem na open source syntézu lidského obrazu jde o velký problém; v kombinaci s růstem Hunyuan LoRAs by to mohlo uživatelům umožnit transformovat fotografie lidí na videa způsobem, který nenaruší jejich identitu při vývoji videa – což je v současnosti případ všech nejmodernějších obrázků – to-video generátory, včetně Kling, Kaiber a velmi oslavovaný RunwayML:

Klepnutím přehrajte. Generování obrazu na video z nejmodernějšího modelu Gen 3 Turbo od RunwayML. Stejně jako u všech podobných a méně konkurenčních modelů si však nedokáže udržet konzistentní identitu, když se objekt odvrátí od fotoaparátu, a odlišné rysy výchozího snímku se stanou „obecnou difúzní ženou“.. Zdroj: https://app.runwayml.com/

Vytvořením vlastní LoRA pro dotyčnou osobnost by bylo možné v pracovním postupu HV I2V použít jejich skutečnou fotografii jako výchozí bod. To je mnohem lepší 'semínko', než poslat náhodné číslo do latentního prostoru modelu a spokojit se s výsledkem jakéhokoli sémantického scénáře. Pak by bylo možné použít LoRA nebo více LoRA k udržení konzistence identity, účesů, oblečení a dalších klíčových aspektů generace.

Potenciálně by dostupnost takové kombinace mohla představovat jeden z nejepochálnějších posunů v generativní AI od spuštění Stabilní difúze, s impozantním generativním výkonem předávaným nadšencům open source bez regulace (nebo „brány“, chcete-li) poskytované cenzoři obsahu v současné úrodě populárních systémů gen vid.

Jak píšu, Hunyuan image-to-video je an nezaškrtnuté 'dělat' v repozitáři Hunyuan Video GitHub, přičemž komunita nadšenců hlásila (neoficiálně) komentář Discord od vývojáře z Hunyuanu, který zjevně uvedl, že vydání této funkce bylo kvůli modelu posunuto o nějaký čas později v Q1 být příliš necenzurovaný".

Oficiální kontrolní seznam vydání funkcí pro Hunyuan Video. Zdroj: https://github.com/Tencent/HunyuanVideo?tab=readme-ov-file#-open-source-plan

Oficiální kontrolní seznam vydání funkcí pro Hunyuan Video. Zdroj: https://github.com/Tencent/HunyuanVideo?tab=readme-ov-file#-open-source-plan

Ať je to přesné nebo ne, vývojáři repo v podstatě splnili zbytek kontrolního seznamu Hunyuan, a proto se zdá, že Hunyuan I2V nakonec dorazí, ať už cenzurovaný, necenzurovaný nebo nějakým způsobem. 'unlockable'.

Ale jak můžeme vidět ve výše uvedeném seznamu, vydání I2V je zjevně zcela samostatným modelem – díky čemuž je dost nepravděpodobné, že s ním bude fungovat některá ze současných rostoucích plodin HV LoRA v Civitu a jinde.

V tomto (teď už) předvídatelném scénáři jsou tréninkové rámce LoRA jako např Tuner Musubi si OneTrainer bude buď nastaven zpět nebo resetován s ohledem na podporu nového modelu. Mezitím jeden nebo dva z nejvíce technicky zdatných (a podnikavých) osobností YouTube AI budou vykupovat svá řešení prostřednictvím Patreonu, dokud je scéna nedožene.

Upgrade Fatigue

Téměř nikdo nezažívá únavu z upgradu tolik jako LoRA nebo doladění nadšence, protože rychlé a konkurenční tempo změn v generativní umělé inteligenci povzbuzuje modelářské slévárny, jako je Stability.ai, Tencent a Black Forest Labs, aby produkovaly větší a (někdy) lepší modely při maximální možné frekvenci.

Protože tyto nové a vylepšené modely budou mít přinejmenším jiné předsudky a závažía častěji budou mít jiné měřítko a/nebo architekturu, to znamená, že komunita pro dolaďování musí znovu dostat své datové sady a opakovat vyčerpávající tréninkový proces pro novou verzi.

Z tohoto důvodu je u Civit k dispozici velké množství typů verzí Stable Diffusion LoRA:

Upgrade, vizualizovaný v možnostech filtru vyhledávání na civit.ai

Upgrade, vizualizovaný v možnostech filtru vyhledávání na civit.ai

Protože žádný z těchto lehkých modelů LoRA není interoperabilní s vyššími nebo nižšími verzemi modelů a protože mnohé z nich jsou závislé na populárních slučuje a jemných úprav, které odpovídají staršímu modelu, má významná část komunity tendenci setrvat u „staršího“ vydání, podobně jako přetrvávala loajalita zákazníků k Windows XP let poté, co oficiální minulá podpora skončila.

Přizpůsobení se změně

Toto téma přichází na mysl kvůli a nový papír od společnosti Qualcomm AI Research, která tvrdí, že vyvinula metodu, pomocí níž lze stávající LoRA „upgradovat“ na nově vydanou modelovou verzi.

Příklad konverze LoRA napříč verzemi modelu. Zdroj: https://arxiv.org/pdf/2501.16559

Příklad konverze LoRA napříč verzemi modelu. Zdroj: https://arxiv.org/pdf/2501.16559

To neznamená, že nový přístup s názvem LoRA-X, může volně překládat mezi všemi modely stejného typu (tj. modely textu na obrázky nebo modely velkých jazyků [LLM]); ale autoři prokázali efektivní transliteraci LoRA ze Stable Diffusion v1.5 > SDXL a konverzi LoRA pro textový model TinyLlama 3T na TinyLlama 2.5T.

LoRA-X přenáší parametry LoRA přes různé základní modely zachováním adaptér v podprostoru zdrojového modelu; ale pouze v částech modelu, které jsou mezi verzemi modelu dostatečně podobné.

Vlevo schéma způsobu, jakým zdrojový model LoRA-X dolaďuje adaptér, který je následně upraven tak, aby odpovídal cílovému modelu pomocí vlastní vnitřní struktury. Vpravo snímky generované cílovými modely SD Eff-v1.0 a SSD-1B po použití adaptérů přenesených z SD-v1.5 a SDXL bez dalšího školení.

Vlevo schéma způsobu, jakým zdrojový model LoRA-X dolaďuje adaptér, který je následně upraven tak, aby odpovídal cílovému modelu. Vpravo snímky generované cílovými modely SD Eff-v1.0 a SSD-1B po použití adaptérů přenesených z SD-v1.5 a SDXL bez dalšího školení.

I když to nabízí praktické řešení pro scénáře, kde je přeškolení nežádoucí nebo nemožné (jako je změna licence na původních školicích datech), metoda je kromě jiných omezení omezena na podobné modelové architektury.

Ačkoli se jedná o vzácný vpád do nedostatečně prostudované oblasti, nebudeme tento článek zkoumat do hloubky kvůli četným nedostatkům LoRA-X, jak dokládají komentáře z jeho kritici a poradci v Open Review.

Metoda spoléhá na subprostorová podobnost omezuje svou aplikaci na úzce související modely a autoři to udělali připustil v recenzním fóru, že LoRA-X nelze snadno přenést přes výrazně odlišné architektury

Další přístupy PEFT

Možnost učinit LoRA přenosnější napříč verzemi je malá, ale zajímavá část studia v literatuře a hlavním přínosem, který LoRA-X k tomuto úsilí přispívá, je její tvrzení, že nevyžaduje žádné školení. To není úplně pravda, pokud člověk čte noviny, ale vyžaduje to nejméně školení ze všech předchozích metod.

LoRA-X je další položka v kánonu Parametrově efektivní jemné ladění (PEFT) metody, které řeší problém přizpůsobení velkých předem vyškolených modelů konkrétním úkolům bez rozsáhlého přeškolování. Tento koncepční přístup si klade za cíl upravit minimální počet parametrů při zachování výkonu.

Mezi nimi jsou pozoruhodné:

X-Adaptér

Jedno X-Adaptér framework přenáší vyladěné adaptéry napříč modely s jistou dávkou přeškolení. Cílem systému je umožnit předem vyškolené moduly plug-and-play (jako např ControlNet a LoRA) ze základního difúzního modelu (tj. Stable Diffusion v1.5) k přímé práci s vylepšeným difúzním modelem, jako je SDXL, bez přeškolování – efektivně fungující jako „univerzální upgrader“ zásuvných modulů.

Systém toho dosahuje trénováním další sítě, která ovládá aktualizovaný model, pomocí zmrazené kopie základního modelu pro zachování konektorů zásuvných modulů:

Schéma pro X-Adapter. Zdroj: https://arxiv.org/pdf/2312.02238

Schéma pro X-Adapter. Zdroj: https://arxiv.org/pdf/2312.02238

X-Adapter byl původně vyvinut a testován pro přenos adaptérů z SD1.5 na SDXL, zatímco LoRA-X nabízí širší škálu transliterací.

DoRA (Weight-Decomposed Low-Rank Adaptation)

DoRA je vylepšená metoda jemného doladění, která zlepšuje LoRA pomocí strategie rozkladu hmotnosti, která se více podobá úplnému jemnému doladění:

DORA se nesnaží pouze kopírovat adaptér ve zmrazeném prostředí, jako to dělá LoRA-X, ale místo toho mění základní parametry závaží, jako je velikost a směr. Zdroj: https://arxiv.org/pdf/2402.09353

DORA se nesnaží pouze kopírovat adaptér ve zmrazeném prostředí, jako to dělá LoRA-X, ale místo toho mění základní parametry závaží, jako je velikost a směr. Zdroj: https://arxiv.org/pdf/2402.09353

DoRA se zaměřuje na vylepšení samotného procesu jemného ladění, a to rozložením závaží modelu na velikost a směr (viz obrázek výše). Místo toho se LoRA-X zaměřuje na umožnění přenosu stávajících vyladěných parametrů mezi různými základními modely

Přístup LoRA-X však přizpůsobuje projekce techniky vyvinuté pro DORA a v testech proti tomuto staršímu systému tvrdí, že byly vylepšeny DINO skóre.

FourRA (Adaptace Fourierovy nízké hodnosti)

Publikováno v červnu 2024 Metoda FourRA pochází, stejně jako LoRA-X, od Qualcomm AI Research, a dokonce sdílí některé své testovací výzvy a témata.

Příklady kolapsu distribuce v LoRA, z dokumentu FouRA z roku 2024, s použitím modelu Realistic Vision 3.0 trénovaného s LoRA a FouRA pro adaptéry ve stylu 'Blue Fire' a 'Origami', napříč čtyřmi semeny. Obrázky LoRA vykazují kolaps distribuce a sníženou diverzitu, zatímco FouRA generuje rozmanitější výstupy. Zdroj: https://arxiv.org/pdf/2406.08798

Příklady kolapsu distribuce v LoRA, z dokumentu FouRA z roku 2024, s použitím modelu Realistic Vision 3.0 trénovaného s LoRA a FouRA pro adaptéry ve stylu 'Blue Fire' a 'Origami', napříč čtyřmi semeny. Obrázky LoRA vykazují kolaps distribuce a sníženou diverzitu, zatímco FouRA generuje rozmanitější výstupy. Zdroj: https://arxiv.org/pdf/2406.08798

FouRA se zaměřuje na zlepšení rozmanitosti a kvality generovaných obrazů přizpůsobením LoRA ve frekvenční doméně pomocí a Fourierova transformace přístup.

LoRA-X zde opět dokázal dosáhnout lepších výsledků než Fourierův přístup FouRA.

Ačkoli oba rámce spadají do kategorie PEFT, mají velmi odlišné případy použití a přístupy; v tomto případě FouRA pravděpodobně „vytváří čísla“ pro testovací kolo s omezenými podobnými soupeři, se kterými se autoři nového článku zabývají.

SVDiff

SVDiff má také jiné cíle než LoRA-X, ale v novém dokumentu je silně využíván. SVDiff je navržen tak, aby zlepšil efektivitu jemného ladění modelů difúze a přímo upravuje hodnoty v rámci váhových matic modelu, přičemž singulární vektory zůstávají nezměněny. SVDiff používá zkrácené SVD, upravující pouze největší hodnoty, pro úpravu hmotnosti modelu.

Tento přístup využívá techniku ​​rozšiřování dat tzv Cut-Mix-Unmix:

Generování více předmětů funguje v SVDiff jako systém izolující koncepty. Zdroj: https://arxiv.org/pdf/2303.11305

Generování více předmětů funguje v SVDiff jako systém izolující koncepty. Zdroj: https://arxiv.org/pdf/2303.11305

Cut-Mix-Unmix je navržen tak, aby pomohl difúznímu modelu naučit se více odlišných konceptů, aniž by je prolínal. Ústřední myšlenkou je pořídit snímky různých předmětů a zřetězit je do jednoho obrazu. Poté je model trénován pomocí výzev, které explicitně popisují jednotlivé prvky v obrázku. To nutí model rozpoznávat a zachovávat odlišné koncepty namísto jejich prolínání.

Během tréninku navíc regulace termín pomáhá předcházet interferencím mezi subjekty. Teorie autorů tvrdí, že to usnadňuje vylepšené generování více předmětů, kde každý prvek zůstává vizuálně odlišný, spíše než aby byl spojen dohromady.

Cílem SVDiff, vyloučeného z testovacího kola LoRA-X, je vytvořit kompaktní prostor parametrů. LoRA-X se místo toho zaměřuje na přenositelnost parametrů LoRA napříč různými základními modely provozováním v podprostoru původního modelu.

Proč investovat do čističky vzduchu?

Zde diskutované metody nejsou jedinými obyvateli PEFT. Mezi další patří QLoRA a QA-LoRA; Ladění prefixů; Prompt-TuningA ladění adaptéru, mezi ostatními.

„Upgradovatelná LoRA“ je možná alchymistické pronásledování; jistě není nic bezprostředně na obzoru, co by bránilo modelářům LoRA v tom, aby museli znovu vytáhnout své staré datové sady pro nejnovější a největší vydání závaží. Pokud existuje nějaký možný prototypový standard pro revizi vah, který je schopen přežít změny v architektuře a balonování parametrů mezi verzemi modelu, zatím se neobjevil v literatuře a bude třeba jej nadále extrahovat z dat na základě modelu. .

 

Poprvé publikováno ve čtvrtek 30. ledna 2025

Spisovatel o strojovém učení, doménový specialista na syntézu lidského obrazu. Bývalý vedoucí obsahu výzkumu na Metaphysic.ai.
Osobní stránky: martinanderson.ai
Kontakt: [chráněno e-mailem]
Twitter: @manders_ai