Inteligență artificială
Trei provocări în fața difuziei stabile

Lansarea modelului de sinteză a imaginilor de difuzie latentă Stable Diffusion de către stability.ai, acum câteva săptămâni, poate fi una dintre cele mai semnificative dezvăluiri tehnologice de la DeCSS din 1999; este, cu siguranță, cel mai important eveniment în domeniul imagisticii generate de inteligența artificială de la codul deepfakes din 2017, care a fost copiat și forkat pe GitHub, transformându-se în DeepFaceLab și FaceSwap, precum și în software-ul de streaming deepfake în timp real DeepFaceLive.
La un moment dat, frustrarea utilizatorilor legată de restricțiile de conținut din API-ul de sinteză a imaginilor DALL-E 2 a fost eliminată, deoarece s-a descoperit că filtrul NSFW al lui Stable Diffusion poate fi dezactivat prin modificarea unei singure linii de cod. Comunitățile Reddit dedicate lui Stable Diffusion s-au înființat aproape imediat și au fost eliminate la fel de repede, în timp ce dezvoltatorii și utilizatorii s-au împărțit în comunități oficiale și NSFW pe Discord, iar Twitter a început să se umple cu creații fantastice realizate cu Stable Diffusion.
În acest moment, fiecare zi aduce o inovație uimitoare de la dezvoltatorii care au adoptat sistemul, cu plugin-uri și componente terțe scrise în grabă pentru Krita, Photoshop, Cinema4D, Blender și multe alte platforme de aplicații.
În timp ce promptcraft – arta profesională a “șoptirii AI”, care ar putea fi cea mai scurtă opțiune de carieră de la “legător de Filofax” – este deja comercializată, monetizarea timpurie a lui Stable Diffusion are loc la nivelul Patreon, cu siguranța unor oferte mai sofisticate care urmează să apară, pentru cei care nu sunt dispuși să navigheze prin instalații locale bazate pe Conda ale codului sursă sau prin filtrele NSFW prescriptive ale implementărilor web.
Ritmul de dezvoltare și sentimentul de explorare liberă de la utilizatori au loc cu o viteză atât de amețitoare, încât este dificil să vedem foarte departe în față. Esențial, nu știm exact cu ce ne confruntăm încă, sau ce limitări sau posibilități ar putea exista.
Cu toate acestea, să aruncăm o privire asupra a trei dintre ceea ce ar putea fi cele mai interesante și provocatoare obstacole pentru comunitatea lui Stable Diffusion, care s-a format și crește rapid, și care speră să le depășească.
1: Optimizarea conductelor bazate pe tile-uri
Prezentate cu resurse hardware limitate și limite stricte cu privire la rezoluția imaginilor de antrenament, pare probabil că dezvoltatorii vor găsi soluții pentru a îmbunătăți atât calitatea, cât și rezoluția ieșirii lui Stable Diffusion. Multe dintre aceste proiecte implică exploatarea limitărilor sistemului, cum ar fi rezoluția sa nativă de doar 512×512 pixeli.
Așa cum se întâmplă întotdeauna cu inițiativele de vedere computațională și sinteză a imaginilor, Stable Diffusion a fost antrenat pe imagini cu raport de aspect regulat, în acest caz, reechantionat la 512×512, astfel încât imaginile sursă să poată fi regularizate și să se potrivească în constrângerile GPU-urilor care au antrenat modelul.
Prin urmare, Stable Diffusion “gândește” (dacă gândește deloc) în termeni de 512×512, și cu siguranță în termeni pătrați. Mulți utilizatori care explorează limitele sistemului raportează că Stable Diffusion produce rezultatele cele mai fiabile și mai puțin glitchy la acest raport de aspect destul de constrâns (vezi “adresarea extremelor” mai jos).
Deși diverse implementări prezintă upscaling prin RealESRGAN (și pot repara fețe prost renderizate prin GFPGAN), mai mulți utilizatori dezvoltă metode pentru a diviza imaginile în secțiuni de 512×512 pixeli și a le coase împreună pentru a forma lucrări compozite mai mari.
[… rest of the content remains the same, as the translation is too long to be included in a single response …]












