Kapcsolatba velünk

Mesterséges intelligencia

A LoRA-k felé, amelyek túlélik a modellverzió frissítéseket

mm

Közzététel:

 on

ChatGPT-4o: variáció „egy 1792x1024-es, kiemelt cikkből készült riportképhez, amely egy eldobott fémfigurákkal teli ugrásról készült, valósághű férfiak és nők minden korosztálytól és típustól”

Az enyém óta legutóbbi tudósítás a hobbi Hunyuan Video LoRA-k (kicsi, betanított fájlokat amelyek egyéni személyiségeket tudnak beilleszteni többmilliárd paraméterű szöveg-videó és kép-videó alapozó modellekbe), a Civit közösségben elérhető kapcsolódó LoRA-k száma 185%-kal nőtt.

Annak ellenére, hogy a Hunyuan Video LoRA elkészítésének nincs különösebben egyszerű vagy kis erőfeszítést igénylő módja, a Civit hírességek és témájú LoRA-k katalógusa naponta bővül. Forrás: https://civitai.com/

Annak ellenére, hogy a Hunyuan Video LoRA elkészítésének nincs különösebben egyszerű vagy kis erőfeszítést igénylő módja, a Civit hírességek és témájú LoRA-k katalógusa naponta bővül. Forrás: https://civitai.com/

Ugyanaz a közösség, amely arra törekszik, hogy megtanulja, hogyan készítse el ezeket a „kiegészítő személyiségeket” a Hunyuan Video (HV) számára. fekélyesedő egy beígért szabadulásért képről videóra (I2V) funkcionalitás a Hunyuan Videóban.

Ami a nyílt forráskódú emberi képszintézist illeti, ez nagy dolog; a Hunyuan LoRA-k növekedésével kombinálva lehetővé teheti a felhasználók számára, hogy az emberekről készült fényképeket videókká alakítsák át oly módon, hogy a videó fejlődése során ne csorbuljon az identitásuk – ami jelenleg minden korszerű kép esetében így van. videó generátorok, köztük Kling, Kaiber és a sokat ünnepelt RunwayML:

Kattintson a játék elkezdéséhez. Kép-videó generáció a RunwayML legmodernebb Gen 3 Turbo modelljéből. Azonban az összes hasonló és kevésbé rivális modellhez hasonlóan ez sem képes konzisztens azonosságot fenntartani, amikor a téma elfordul a kamerától, és a kiinduló kép megkülönböztető jegyei „általános diffúziós nővé” válnak.. Forrás: https://app.runwayml.com/

Egyedi LoRA kifejlesztésével a szóban forgó személyiséghez a HV I2V munkafolyamatban valódi fényképet használhatunk kiindulási pontként. Ez sokkal jobb „mag”, mint véletlen számot küldeni a modell látens terébe, és megelégedni bármilyen szemantikai forgatókönyv eredményével. Ezután használhatjuk a LoRA-t vagy több LoRA-t az identitás, a frizurák, a ruházat és a nemzedék más kulcsfontosságú szempontjainak egységességének megőrzésére.

Potenciálisan egy ilyen kombináció elérhetősége az egyik legkorszakosabb elmozdulást jelentheti a generatív mesterséges intelligencia elindítása óta. Stabil diffúzió, hatalmas generatív teljesítménnyel, amelyet a nyílt forráskódú rajongók kezébe adunk, az általa biztosított szabályozás (vagy „kapuőrzés”, ha úgy tetszik) nélkül. tartalomcenzorok a népszerű gen vid rendszerek jelenlegi termésében.

Ahogy írom, a Hunyuan image-to-video egy kipipálva "megtenni" a Hunyuan Video GitHub repóban, ahol a hobbiközösség (anekdotikusan) egy Hunyuan fejlesztő Discord megjegyzéséről számolt be, aki nyilvánvalóan azt állította, hogy ennek a funkciónak a megjelenése a modell miatt későbbre tolódott az első negyedévben. túlságosan cenzúrázatlan".

A Hunyuan Video hivatalos funkciókiadási ellenőrző listája. Forrás: https://github.com/Tencent/HunyuanVideo?tab=readme-ov-file#-open-source-plan

A Hunyuan Video hivatalos funkciókiadási ellenőrző listája. Forrás: https://github.com/Tencent/HunyuanVideo?tab=readme-ov-file#-open-source-plan

Pontos vagy sem, a repo fejlesztői lényegében teljesítették a Hunyuan ellenőrzőlista többi részét, és ezért úgy tűnik, hogy a Hunyuan I2V végül megérkezik, akár cenzúrázva, akár cenzúrázatlanul, akár valamilyen módon. 'nyitható'.

De amint a fenti listán is láthatjuk, az I2V-kiadás nyilvánvalóan egy teljesen különálló modell – ami meglehetősen valószínűtlenné teszi, hogy a Civitnél és máshol jelenleg feltörekvő HV LoRA-k száma működni fog vele.

Ebben a (mára) kiszámítható forgatókönyvben a LoRA képzési keretrendszerek, mint pl Musubi tuner és a OneTrainer vagy vissza lesz állítva, vagy visszaállítja az új modell támogatását. Ezalatt egy-két legtechnológiásabb (és vállalkozó szellemű) YouTube AI-fényes a Patreonon keresztül váltságdíjat fizet a megoldásaiért, amíg a jelenet utoléri.

Frissítés fáradtság

Szinte senki sem tapasztal annyira frissítési fáradtságot, mint egy LoRA vagy finomhangolás lelkes, mert a generatív mesterséges intelligencia gyors és versenyképes üteme arra ösztönzi az olyan modellöntödéket, mint a Stability.ai, a Tencent és a Black Forest Labs, hogy nagyobb és (néha) jobb modelleket állítsanak elő a maximális életképes frekvencián.

Mivel ezeknek az új és továbbfejlesztett modelleknek legalább különböző előítéleteik és súlyok, és gyakrabban más léptékű és/vagy architektúra lesz, ez azt jelenti, hogy a finomhangoló közösségnek újra elő kell vennie az adatkészleteit, és meg kell ismételnie az új verzió fárasztó betanítási folyamatát.

Emiatt a Civitnél számos Stable Diffusion LoRA verziótípus érhető el:

A frissítési nyomvonal a civit.ai keresési szűrőbeállításaiban látható

A frissítési nyomvonal a civit.ai keresési szűrőbeállításaiban látható

Mivel e könnyű LoRA modellek egyike sem interoperábilis a magasabb vagy alacsonyabb modellváltozatokkal, és mivel sokuk függ a népszerű nagyméretű modellektől. összeolvad és finomhangolások, amelyek egy régebbi modellhez ragaszkodnak, a közösség jelentős része hajlamos ragaszkodni egy „örökölt” kiadáshoz, ugyanúgy, ahogyan az ügyfelek továbbra is hűek a Windows XP-hez. évekkel a hivatalos múltbeli támogatás megszűnése után.

Alkalmazkodás a változáshoz

Ez a téma azért jut eszembe, mert a új lap a Qualcomm AI Researchtől, amely azt állítja, hogy kifejlesztett egy módszert, amellyel a meglévő LoRA-k „frissíthetők” egy újonnan kiadott modellváltozatra.

Példa a LoRA-k konvertálására a modellverziók között. Forrás: https://arxiv.org/pdf/2501.16559

Példa a LoRA-k konvertálására a modellverziók között. Forrás: https://arxiv.org/pdf/2501.16559

Ez nem jelenti azt, hogy az új megközelítés, a cím LoRA-X, szabadon fordíthat az azonos típusú modellek (pl. szövegből képbe modellek vagy nagy nyelvű modellek [LLM-ek]) között; de a szerzők bemutatták egy LoRA hatékony átírását a Stable Diffusion v1.5 > SDXL verzióból, és egy LoRA átalakítását a szöveges TinyLlama 3T modellhez TinyLlama 2.5T-re.

A LoRA-X átviszi a LoRA paramétereket a különböző alapmodellek között azáltal, hogy megőrzi a adapter a forrásmodell alterén belül; de csak a modell azon részein, amelyek megfelelően hasonlóak a különböző modellváltozatokban.

A bal oldalon egy séma a LoRA-X forrásmodell egy adapter finomhangolásának módjához, amelyet aztán a saját belső szerkezete segítségével a célmodellhez igazítanak. A jobb oldalon az SD Eff-v1.0 és SSD-1B célmodellek által generált képek, az SD-v1.5 és SDXL-ről további képzés nélkül átvitt adapterek alkalmazása után.

A bal oldalon egy séma a LoRA-X forrásmodell egy adapter finomhangolásának módjához, amelyet aztán a célmodellhez igazítanak. A jobb oldalon az SD Eff-v1.0 és SSD-1B célmodellek által generált képek, az SD-v1.5 és SDXL-ről további képzés nélkül átvitt adapterek alkalmazása után.

Bár ez praktikus megoldást kínál olyan forgatókönyvekre, ahol az átképzés nem kívánatos vagy lehetetlen (például az eredeti képzési adatok licencének megváltoztatása), a módszer – egyéb korlátozások mellett – a hasonló modellarchitektúrákra korlátozódik.

Bár ez egy ritka betörés egy kevéssé tanulmányozott területre, nem vizsgáljuk meg alaposan ezt a cikket a LoRA-X számos hiányossága miatt, amint azt a LoRA-X megjegyzései is bizonyítják. az Open Review kritikusai és tanácsadói.

A módszer támaszkodása szubtér hasonlóság alkalmazását szorosan kapcsolódó modellekre korlátozza, és ezt a szerzők is megtették elismerte az áttekintő fórumon, hogy a LoRA-X nem vihető át könnyen jelentősen eltérő architektúrák között

Egyéb PEFT-megközelítések

Az a lehetőség, hogy a LoRA-kat több változatban is hordozhatóbbá tegyük, egy kicsi, de érdekes kutatási ág a szakirodalomban, és a LoRA-X fő hozzájárulása ehhez a törekvéshez az az állítás, hogy nem igényel képzést. Ez szigorúan nem igaz, ha valaki elolvassa a papírt, de a korábbi módszerek közül ez igényel a legkevesebb képzést.

A LoRA-X egy másik bejegyzés a kánonban Paraméter-hatékony finomhangolás (PEFT) módszerek, amelyek a nagy előre betanított modellek konkrét feladatokhoz való adaptálásának kihívását célozzák kiterjedt átképzés nélkül. Ez az elvi megközelítés minimális számú paraméter módosítását célozza a teljesítmény megőrzése mellett.

Ezek közül kiemelendőek:

X-Adapter

A X-Adapter A keretrendszer átadja a finomhangolt adaptereket a modellek között bizonyos mértékű átképzéssel. A rendszer célja, hogy lehetővé tegye az előre betanított plug-and-play modulokat (pl ControlNet és LoRA) egy alapdiffúziós modellből (azaz a Stable Diffusion v1.5-ből), hogy közvetlenül működjenek együtt egy továbbfejlesztett diffúziós modellel, például az SDXL-lel, átképzés nélkül – hatékonyan „univerzális frissítőként” működve a bővítmények számára.

A rendszer ezt egy további hálózat betanításával éri el, amely a frissített modellt vezérli, és az alapmodell lefagyasztott másolatát használja a plugin-csatlakozók megőrzésére:

X-Adapter séma. Forrás: https://arxiv.org/pdf/2312.02238

X-Adapter séma. Forrás: https://arxiv.org/pdf/2312.02238

Az X-Adaptert eredetileg az adapterek SD1.5-ről SDXL-re való átvitelére fejlesztették ki és tesztelték, míg a LoRA-X az átírások szélesebb választékát kínálja.

DoRA (súly-bontott alacsony rangú adaptáció)

A DoRA egy továbbfejlesztett finomhangolási módszer, amely javítja a LoRA-t egy olyan súlybontási stratégia használatával, amely jobban hasonlít a teljes finomhangolásra:

A DORA nem csak megkísérli átmásolni az adaptert lefagyott környezetben, ahogy a LoRA-X teszi, hanem megváltoztatja a súlyok alapvető paramétereit, például a nagyságot és az irányt. Forrás: https://arxiv.org/pdf/2402.09353

A DORA nem csak megkísérli átmásolni az adaptert lefagyott környezetben, ahogy a LoRA-X teszi, hanem megváltoztatja a súlyok alapvető paramétereit, például a nagyságot és az irányt. Forrás: https://arxiv.org/pdf/2402.09353

A DoRA magának a finomhangolási folyamatnak a javítására összpontosít, azáltal, hogy a modell súlyait nagyságrendre és irányra bontja (lásd a fenti képet). Ehelyett a LoRA-X arra összpontosít, hogy lehetővé tegye a meglévő finomhangolt paraméterek átvitelét a különböző alapmodellek között

A LoRA-X megközelítés azonban alkalmazkodik a vetítés A DORA számára kifejlesztett technikák, és a régebbi rendszerrel szembeni tesztekben azt állítják, hogy jobb DINO pontszám.

FouRA (Fourier alacsony fokozatú adaptáció)

2024 júniusában jelent meg a FouRA módszer A LoRA-X-hez hasonlóan a Qualcomm AI Researchtől származik, és még meg is osztja néhány tesztelési utasítását és témáját.

Példák a terjesztés összeomlására a LoRA-ban a 2024-es FouRA-papírból, a Realistic Vision 3.0 modell használatával, amelyet LoRA-val és FouRA-val képeztek ki a „Blue Fire” és „Origami” típusú adapterekhez, négy magon keresztül. A LoRA-képek az eloszlás összeomlását és a diverzitás csökkenését mutatják, míg a FouRA változatosabb kimeneteket generál. Forrás: https://arxiv.org/pdf/2406.08798

Példák a terjesztés összeomlására a LoRA-ban a 2024-es FouRA-papírból, a Realistic Vision 3.0 modell használatával, amelyet LoRA-val és FouRA-val képeztek ki a „Blue Fire” és „Origami” típusú adapterekhez, négy magon keresztül. A LoRA-képek elosztási összeomlást és csökkentett diverzitást mutatnak, míg a FouRA változatosabb kimeneteket generál. Forrás: https://arxiv.org/pdf/2406.08798

A FouRA a generált képek sokféleségének és minőségének javítására összpontosít azáltal, hogy a LoRA-t a frekvenciatartományban adaptálja, egy Fourier transzformáció megközelítés.

A LoRA-X itt is jobb eredményeket tudott elérni, mint a FouRA Fourier-alapú megközelítése.

Bár mindkét keretrendszer a PEFT kategóriába tartozik, nagyon eltérő felhasználási esetekkel és megközelítéssel rendelkeznek; ebben az esetben a FouRA vitathatatlanul „kitalálja a számokat” egy tesztkörhöz, korlátozott számú hasonló riválissal az új lap szerzői számára.

SVDiff

Az SVDiffnek is más céljai vannak, mint a LoRA-X-nek, de az új papír erőteljesen kihasználja. Az SVDiff célja, hogy javítsa a diffúziós modellek finomhangolásának hatékonyságát, és közvetlenül módosítja a modell súlymátrixain belüli értékeket, miközben a szinguláris vektorokat változatlanul hagyja. SVDiff használja csonka SVD, csak a legnagyobb értékeket módosítva a modell súlyainak beállításához.

Ez a megközelítés az úgynevezett adatkiegészítési technikát használja Vágás-Mix-Unmix:

A több alanyú generálás koncepció-leválasztó rendszerként működik az SVDiff-ben. Forrás: https://arxiv.org/pdf/2303.11305

A több alanyú generálás koncepció-leválasztó rendszerként működik az SVDiff-ben. Forrás: https://arxiv.org/pdf/2303.11305

A Cut-Mix-Unmix célja, hogy segítse a diffúziós modellt több különböző fogalom megismerésében anélkül, hogy összekeverné őket. A központi ötlet az, hogy különböző témákról képeket készítsünk, és azokat egyetlen képpé fűzzük össze. Ezután a modell olyan promptokkal betanításra kerül, amelyek kifejezetten leírják a kép egyes elemeit. Ez arra kényszeríti a modellt, hogy felismerje és megőrizze az eltérő fogalmakat, ahelyett, hogy keverné őket.

Az edzés során további szabályozás kifejezés segít megelőzni a tárgyak közötti interferenciát. A szerzők elmélete azt állítja, hogy ez elősegíti a jobb több alanyú generálást, ahol az egyes elemek vizuálisan különállóak maradnak, nem pedig összeolvadnak.

A LoRA-X tesztelési körből kizárt SVDiff célja egy kompakt paramétertér létrehozása. A LoRA-X ehelyett a LoRA-paraméterek különböző alapmodellek közötti átvihetőségére összpontosít, az eredeti modell alterében működik.

Következtetés

Az itt tárgyalt módszerek nem a PEFT kizárólagos lakói. Mások közé tartozik QLoRA és QA-LoRA; Előtag hangolása; Prompt-Tuning, És adapter-tuning, Többek között.

A „bővíthető LoRA” talán alkímiai törekvés; Természetesen semmi sem akadályozza meg a LoRA-modellezőket abban, hogy újra ki kelljen húzniuk régi adatkészleteiket a legújabb és legnagyobb súlyozású kiadáshoz. Ha létezik valamilyen lehetséges prototípus-szabvány a súlyok felülvizsgálatára, amely képes túlélni az architektúra változásait és a modellváltozatok közötti ballonozási paramétereket, az még nem jelent meg a szakirodalomban, és továbbra is modellenként kell kinyerni az adatokból. .

 

Első megjelenés 30. január 2025-án, csütörtökön

Író a gépi tanulásról, az emberi képszintézis terület specialistája. A Metaphysic.ai kutatási tartalomért felelős vezetője volt.
Személyes oldal: Martinanderson.ai
Kapcsolat [e-mail védett]
Twitter: @manders_ai