Angolo di Anderson

Verso LoRAs che possano sopravvivere agli aggiornamenti delle versioni del modello

Pubblicato il 30 gennaio 2025

Aggiornato il 19 maggio 2026

Martin Anderson

ChatGPT-4o: variation on ‘a 1792x1024 feature article reportage image of a skip full of discarded metal figurines, featuring realistic men and women of all ages and all types’

Da quando ho coperto la crescita dell’Hunyuan Video LoRAs (piccoli file addestrati che possono iniettare personalità personalizzate in modelli di base per testo-immagine e immagine-video con miliardi di parametri), il numero di LoRAs correlate disponibili nella comunità di Civit è aumentato del 185%.

Nonostante il fatto che non ci siano modi particolarmente facili o a basso sforzo per creare un Hunyuan Video LoRA, il catalogo di LoRAs di celebrità e temi a Civit cresce quotidianamente. Fonte: https://civitai.com/

La stessa comunità che sta cercando di imparare a produrre queste ‘personalità aggiuntive’ per Hunyuan Video sta anche ulcerando per la promessa di rilascio di una funzionalità immagine-video (I2V) in Hunyuan Video.

Riguardo alla sintesi di immagini umane open source, questo è un grande affare; combinato con la crescita delle Hunyuan LoRAs, potrebbe consentire agli utenti di trasformare le foto di persone in video in un modo che non eroda la loro identità mentre il video si sviluppa – il che è attualmente il caso di tutti i generatori di immagine-video di stato dell’arte, inclusi Kling, Kaiber e il molto celebrato RunwayML:

Fare clic per riprodurre. Una generazione di immagine-video da RunwayML’s stato dell’arte Gen 3 Turbo model. Tuttavia, in comune con tutti i modelli simili e rivali inferiori, non può mantenere una identità coerente quando il soggetto si allontana dalla telecamera, e le caratteristiche distintive dell’immagine di partenza diventano una ‘donna di diffusione generica’. Fonte: https://app.runwayml.com/

Sviluppare un LoRA personalizzato per la personalità in questione, uno potrebbe, in un flusso di lavoro I2V HV, utilizzare una foto reale di loro come punto di partenza. Questo è un ‘seme’ molto migliore di quello di inviare un numero casuale nello spazio latente del modello e accontentarsi di qualsiasi scenario semantico che ne risulti. Uno potrebbe quindi utilizzare il LoRA, o più LoRAs, per mantenere la coerenza dell’identità, dei capelli, degli abiti e altri aspetti cruciali di una generazione.

Potenzialmente, la disponibilità di una tale combinazione potrebbe rappresentare uno degli spostamenti più epocali nell’intelligenza artificiale generativa dal lancio di Stable Diffusion, con un potere generativo formidabile consegnato agli appassionati di open source, senza la regolamentazione (o ‘gatekeeping’, se preferisci) fornita dai censori di contenuti nei sistemi di video generativi attuali.

While scrivo, Hunyuan image-to-video è un unticked ‘to do’ nel repository GitHub di Hunyuan Video, con la comunità di appassionati che segnala (anecdoticamente) un commento Discord da uno sviluppatore di Hunyuan, che apparentemente ha affermato che il rilascio di questa funzionalità è stato rinviato a qualche tempo più tardi nel Q1 a causa del modello essere ‘troppo non censurato’.

La checklist ufficiale di rilascio delle funzionalità di Hunyuan Video. Fonte: https://github.com/Tencent/HunyuanVideo?tab=readme-ov-file#-open-source-plan

Accurate o no, gli sviluppatori del repository hanno sostanzialmente mantenuto le promesse per il resto della checklist di Hunyuan, e quindi Hunyuan I2V sembra destinato ad arrivare eventualmente, sia censurato, non censurato o in qualche modo ‘sbloccabile’.

Ma come possiamo vedere nella lista sopra, il rilascio I2V è apparentemente un modello separato – il che rende abbastanza improbabile che qualsiasi delle attuali LoRAs di HV a Civit e altrove funzionino con esso.

In questo (ora) prevedibile scenario, i framework di addestramento LoRA come Musubi Tuner e OneTrainer saranno o ritardati o reimpostati per supportare il nuovo modello. Nel frattempo, uno o due dei più tecnologicamente esperti (e imprenditoriali) luminari di YouTube AI potrebbero ricattare le loro soluzioni tramite Patreon fino a quando la scena non si aggiornerà.

Fatica dell’aggiornamento

Quasi nessuno sperimenta la fatica dell’aggiornamento come un entusiasta di LoRA o fine-tuning, perché il ritmo rapido e competitivo del cambiamento nell’intelligenza artificiale generativa incoraggia le fonderie di modelli come Stability.ai, Tencent e Black Forest Labs a produrre modelli più grandi e (a volte) migliori al massimo frequenza possibile.

Dal momento che questi nuovi e migliorati modelli avranno almeno diversi bias e pesi, e più comunemente avranno una diversa scala e/o architettura, ciò significa che la comunità di fine-tuning deve riprendere i propri set di dati e ripetere il processo di addestramento faticoso per la nuova versione.

Per questo motivo, una molteplicità di tipi di versioni di Stable Diffusion LoRA sono disponibili a Civit:

La traiettoria di aggiornamento, visualizzata nelle opzioni di filtro di ricerca in civit.ai

Poiché nessuno di questi modelli LoRA leggeri è interoperabile con versioni di modello più alte o più basse, e poiché molti di essi hanno dipendenze da merge e fine-tune popolari su larga scala che aderiscono a un modello più vecchio, una parte significativa della comunità tende a rimanere con una versione ‘legacy’, allo stesso modo in cui la fedeltà dei clienti a Windows XP è persistita anni dopo la fine del supporto ufficiale.

Adattarsi al cambiamento

Questo argomento viene in mente a causa di un nuovo articolo della Qualcomm AI Research che afferma di aver sviluppato un metodo con cui esistono LoRAs che possono essere ‘aggiornati’ a una nuova versione di modello.

Esempio di conversione di LoRAs tra versioni di modelli. Fonte: https://arxiv.org/pdf/2501.16559

Questo non significa che il nuovo approccio, intitolato LoRA-X, possa tradurre liberamente tra tutti i modelli dello stesso tipo (ad esempio, modelli di testo-immagine o Large Language Models [LLM]); ma gli autori hanno dimostrato una traslitterazione efficace di un LoRA da Stable Diffusion v1.5 > SDXL, e una conversione di un LoRA per il modello testuale TinyLlama 3T al TinyLlama 2.5T.

LoRA-X trasferisce i parametri LoRA tra diversi modelli di base preservando l’adattatore all’interno del sottospazio del modello di origine; ma solo in parti del modello che sono adeguatamente simili tra le versioni del modello.

A sinistra, uno schema per il modo in cui il modello di origine LoRA-X addestra un adattatore, che viene quindi regolato per adattarsi al modello di destinazione. A destra, immagini generate dai modelli di destinazione SD Eff-v1.0 e SSD-1B, dopo l’applicazione degli adattatori trasferiti da SD-v1.5 e SDXL senza addestramento aggiuntivo.

Mentre questo offre una soluzione pratica per scenari in cui il riaddestramento è indesiderabile o impossibile (come un cambio di licenza sui dati di addestramento originali), il metodo è limitato a architetture di modelli simili, tra le altre limitazioni.

Sebbene questo sia un raro sconfinamento in un campo poco studiato, non esamineremo questo articolo in profondità a causa delle numerose carenze di LoRA-X, come evidenziato dai commenti dei critici e consulenti di Open Review.

Il metodo si basa sulla somiglianza del sottospazio che limita la sua applicazione a modelli strettamente correlati, e gli autori hanno concesso nel forum di revisione che LoRA-X non può essere facilmente trasferito tra architetture significativamente diverse

Altri approcci PEFT

La possibilità di rendere le LoRAs più portatili tra le versioni è un piccolo ma interessante filone di studio nella letteratura, e il principale contributo che LoRA-X apporta a questo perseguimento è la sua affermazione che non richiede addestramento. Ciò non è strettamente vero, se si legge l’articolo, ma richiede il minimo addestramento di tutti i metodi precedenti.

LoRA-X è un’altra voce nel canone dei metodi Parameter-Efficient Fine-Tuning (PEFT), che affrontano la sfida di adattare grandi modelli pre-addestrati a compiti specifici senza un riaddestramento estensivo. Questo approccio concettuale mira a modificare un numero minimo di parametri mantenendo le prestazioni.

Degni di nota tra questi sono:

X-Adapter

Il framework X-Adapter trasferisce adattatori fine-tuned tra modelli con una certa quantità di riaddestramento. Il sistema mira a consentire moduli pre-addestrati plug-and-play (come ControlNet e LoRA) da un modello di diffusione di base (ad esempio, Stable Diffusion v1.5) per funzionare direttamente con un modello di diffusione aggiornato come SDXL senza riaddestramento – agendo in sostanza come un ‘aggiornatore universale’ per i plugin.

Il sistema raggiunge ciò addestrando una rete aggiuntiva che controlla il modello aggiornato, utilizzando una copia congelata del modello di base per preservare i connettori del plugin:

Schema per X-Adapter. Fonte: https://arxiv.org/pdf/2312.02238

X-Adapter è stato originariamente sviluppato e testato per trasferire adattatori da SD1.5 a SDXL, mentre LoRA-X offre una varietà più ampia di traslitterazioni.

DoRA (Weight-Decomposed Low-Rank Adaptation)

DoRA è un metodo di fine-tuning avanzato che migliora LoRA utilizzando una strategia di decomposizione dei pesi che assomiglia più da vicino al fine-tuning completo:

DoRA non tenta solo di copiare un adattatore in un ambiente congelato, come fa LoRA-X, ma invece cambia parametri fondamentali dei pesi, come grandezza e direzione. Fonte: https://arxiv.org/pdf/2402.09353

DoRA si concentra sull’miglioramento del processo di fine-tuning stesso, decomponendo i pesi del modello in grandezza e direzione (vedi immagine sopra). Invece, LoRA-X si concentra sull’abilitazione del trasferimento di parametri fine-tuned esistenti tra diversi modelli di base

Tuttavia, l’approccio LoRA-X adotta le tecniche di proiezione sviluppate per DORA, e nei test contro questo sistema più vecchio afferma un punteggio DINO migliorato.

FouRA (Fourier Low Rank Adaptation)

Pubblicato nel giugno 2024, il metodo FouRA proviene, come LoRA-X, dalla Qualcomm AI Research, e condivide alcuni dei suoi prompt di test e temi.

Esempi di collasso della distribuzione in LoRA, dal paper FouRA del 2024, utilizzando il modello Realistic Vision 3.0 addestrato con LoRA e FouRA per adattatori di stile ‘Blue Fire’ e ‘Origami’, su quattro semi. Le immagini LoRA mostrano un collasso della distribuzione e una diversità ridotta, mentre FouRA genera output più variati. Fonte: https://arxiv.org/pdf/2406.08798

FouRA si concentra sull’miglioramento della diversità e della qualità delle immagini generate, adattando LoRA nel dominio della frequenza, utilizzando un approccio di trasformata di Fourier.

Qui, di nuovo, LoRA-X è stato in grado di ottenere risultati migliori dell’approccio basato su Fourier di FouRA.

Sebbene entrambi i framework rientrino nella categoria PEFT, hanno casi d’uso e approcci molto diversi; in questo caso, FouRA è probabilmente ‘alla ricerca di numeri’ per un round di test con rivali limitati per gli autori del nuovo articolo.

SVDiff

SVDiff ha obiettivi diversi da LoRA-X, ma è fortemente sfruttato nel nuovo articolo. SVDiff è progettato per migliorare l’efficienza del fine-tuning dei modelli di diffusione, e modifica direttamente i valori all’interno delle matrici di pesi del modello, mantenendo invariati i vettori singolari. SVDiff utilizza SVD troncato, modificando solo i valori più grandi, per regolare i pesi del modello.

Questo approccio utilizza una tecnica di aumento dei dati chiamata Cut-Mix-Unmix:

La generazione di più soggetti funziona come un sistema di isolamento dei concetti in SVDiff. Fonte: https://arxiv.org/pdf/2303.11305

Cut-Mix-Unmix è progettato per aiutare il modello di diffusione a imparare più concetti distinti senza intrecciarli. L’idea centrale è prendere immagini di soggetti diversi e concatenarle in un’unica immagine. Quindi il modello viene addestrato con prompt che descrivono esplicitamente gli elementi separati nell’immagine. Ciò costringe il modello a riconoscere e preservare concetti distinti invece di mescolarli.

Durante l’addestramento, un termine di regolarizzazione aggiuntivo aiuta a prevenire l’interferenza tra soggetti. La teoria degli autori sostiene che ciò facilita una generazione multi-soggetto migliorata, in cui ogni elemento rimane visivamente distinto, invece di essere fuso insieme.

SVDiff, escluso dal round di test LoRA-X, mira a creare uno spazio dei parametri compatto. LoRA-X, invece, si concentra sulla trasferibilità dei parametri LoRA tra diversi modelli di base operando all’interno del sottospazio del modello originale.

Conclusione

I metodi discussi qui non sono gli unici abitanti di PEFT. Altri includono QLoRA e QA-LoRA; Prefix Tuning; Prompt-Tuning; e adapter-tuning, tra gli altri.

La ‘LoRA aggiornabile’ è, forse, una ricerca alchemica; certamente, non c’è nulla di immediato all’orizzonte che possa impedire ai modellisti LoRA di dover tirare fuori di nuovo i loro vecchi set di dati per l’ultimo e il più grande rilascio di pesi. Se esiste un possibile prototipo di standard per la revisione dei pesi, in grado di sopravvivere ai cambiamenti nell’architettura e ai parametri gonfiati tra le versioni del modello, non è emerso nella letteratura yet, e dovrà continuare a essere estratto dai dati su base per modello.

Pubblicato per la prima volta giovedì, 30 gennaio 2025