Connect with us

O perspectivă personală asupra tendințelor literaturii de vedere computerizată în 2024

Inteligență artificială

O perspectivă personală asupra tendințelor literaturii de vedere computerizată în 2024

mm
ChatGPT image: 'A panoramic orthographic-view image of a stylized bunch of SIMs-style scientists working in white coats at a computer research laboratory. Ariel view, orthographic projection, stylized, cartoon-style.'

Am urmărit în mod constant scena de cercetare a viziunii computerizate (CV) și a sintezei de imagini la Arxiv și în alte părți, timp de aproximativ cinci ani, astfel încât tendințele devin evidente în timp, și ele se schimbă în direcții noi în fiecare an.

Prin urmare, pe măsură ce 2024 se apropie de sfârșit, am considerat că este oportun să examinăm unele caracteristici noi sau în evoluție în depozitele Arxiv din secțiunea Viziunea computerizată și recunoașterea modelului secțiune. Aceste observații, deși informate de sute de ore de studiu a scenei, sunt strict anecdotice.

Ascensiunea continuă a Asiei de Est

La sfârșitul anului 2023, am observat că majoritatea literaturii din categoria “sinteză de voce” provenea din China și din alte regiuni din Asia de Est. La sfârșitul anului 2024, trebuie să observ (anecdotically) că acest lucru se aplică acum și scenei de cercetare a sintezei de imagini și video.

Acest lucru nu înseamnă că China și țările adiacente produc întotdeauna cea mai bună muncă (într-adevăr, există dovezi contrare); nici nu ține cont de probabilitatea ridicată în China (la fel ca și în Occident) că unele dintre cele mai interesante și puternice sisteme noi în dezvoltare sunt proprietare și excluse din literatura de cercetare.

Dar sugerează că Asia de Est depășește Occidentul în ceea ce privește volumul, în acest sens. Ce valoare are acest lucru depinde de măsura în care credeți în viabilitatea persistenței în stil Edison, care de obicei se dovedește ineficientă în fața obstacolelor intractabile.

Există multe astfel de obstacole în inteligența artificială generativă, și nu este ușor de știut care dintre ele pot fi rezolvate prin abordarea arhitecturilor existente și care vor trebui reconsiderate de la zero.

Deși cercetătorii din Asia de Est par să producă un număr mai mare de articole de viziune computerizată, am observat o creștere a frecvenței proiectelor de tip “Frankenstein” – inițiative care constituie o combinare a lucrărilor anterioare, fără a adăuga o noutate arhitecturală semnificativă (sau poate doar un alt tip de date).

În acest an, un număr mult mai mare de intrări din Asia de Est (în special colaborări chineze sau chinezo-implicate) au părut a fi conduse de cote, mai degrabă decât de merite, crescând semnificativ raportul semnal-zgomot într-un domeniu deja suprasolicitat.

În același timp, un număr mai mare de articole din Asia de Est au atras și admirația mea în 2024. Așadar, dacă acesta este un joc de numere, nu este un eșec – dar nici nu este ieftin.

Cresc volumul de depuneri

Volumul de articole, din toate țările de origine, a crescut evident în 2024.

Ziua de publicare cea mai populară se schimbă de-a lungul anului; în acest moment este marțea, când numărul de depuneri în secțiunea Viziunea computerizată și recunoașterea modelului este adesea de aproximativ 300-350 într-o singură zi, în perioadele de vârf (mai-august și octombrie-decembrie, adică sezonul conferințelor și “sezonul deadline-ului cotelor anuale”, respectiv).

Dincolo de experiența mea, Arxiv însuși raportează un număr record de depuneri în octombrie 2024, cu 6000 de noi depuneri, și secțiunea Viziunea computerizată fiind a doua cea mai depusă secțiune după Învățarea mașinilor.

Cu toate acestea, deoarece secțiunea Învățarea mașinilor de la Arxiv este adesea utilizată ca o “categorie suplimentară” sau o categorie agregată, acest lucru argumentează pentru faptul că Viziunea computerizată și recunoașterea modelului este de fapt cea mai depusă categorie Arxiv.

Statistici proprii ale Arxiv arată că știința computerului (CS) este liderul clar în ceea ce privește depunerile:

Știința computerului (CS) domină statistica depunerilor la Arxiv în ultimii cinci ani. Sursă: https://info.arxiv.org/about/reports/submission_category_by_year.html

Știința computerului (CS) domină statistica depunerilor la Arxiv în ultimii cinci ani. Sursă: https://info.arxiv.org/about/reports/submission_category_by_year.html

Raportul AI Index 2024 al Universității Stanford, deși nu poate raporta încă statistici recente, subliniază și el creșterea notabilă a depunerilor de articole academice despre învățarea mașinilor în ultimii ani:

Cu cifrele nefiind disponibile pentru 2024, raportul Stanford arată totuși dramatic creșterea volumului de depuneri pentru articolele despre învățarea mașinilor. Sursă: https://aiindex.stanford.edu/wp-content/uploads/2024/04/HAI_AI-Index-Report-2024_Chapter1.pdf

Cu cifrele nefiind disponibile pentru 2024, raportul Stanford arată totuși dramatic creșterea volumului de depuneri pentru articolele despre învățarea mașinilor. Sursă: https://aiindex.stanford.edu/wp-content/uploads/2024/04/HAI_AI-Index-Report-2024_Chapter1.pdf

Modelele de difuziune > rețelele neuronale proliferează

O altă tendință clară care a apărut pentru mine a fost o creștere semnificativă a articolelor care abordează utilizarea Modelelor de difuziune latente (LDM) ca generatoare de modele de rețele neuronale bazate pe mesh, “tradiționale” CGI.

Proiecte de acest tip includ InstantMesh3D de la Tencent, 3Dtopia, Diffusion2, V3D, MVEdit și GIMDiffusion, printre multe alte oferte similare.

Generarea și rafinarea mesh-ului prin procesul de difuziune în 3Dtopia. Sursă: https://arxiv.org/pdf/2403.02234

Generarea și rafinarea mesh-ului prin procesul de difuziune în 3Dtopia. Sursă: https://arxiv.org/pdf/2403.02234

Acest curent de cercetare emergent poate fi considerat o concesie tacită a intractabilității continue a sistemelor generative, cum ar fi modelele de difuziune, care doar cu doi ani în urmă erau considerate un potential înlocuitor pentru toate sistemele pe care modelele de difuziune > rețelele neuronale le încearcă acum să le populeze; relegând difuzia la rolul de instrument în tehnologii și fluxuri de lucru care datează cu treizeci sau mai mulți ani.

Stability.ai, originatorii modelului open-source Stable Diffusion, au lansat recent Stable Zero123, care poate, printre altele, utiliza o interpretare Neural Radiance Fields (NeRF) a unei imagini generate de IA ca punte pentru a crea un model CGI explicit, bazat pe mesh, care poate fi utilizat în arene CGI, cum ar fi Unity, în jocuri video, realitate augmentată și în alte platforme care necesită coordonate 3D explicite, și nu coordonate implicite ale funcțiilor continue.

Faceți clic pentru a juca. Imaginile generate în Stable Diffusion pot fi convertite în mesh-uri CGI raționale. Aici vedem rezultatul unui flux de lucru imagine > CGI folosind Stable Zero 123. Sursă: https://www.youtube.com/watch?v=RxsssDD48Xc

Semantica 3D

Spatiul generativ de inteligență artificială face o distincție între implementările sistemelor 2D și 3D ale viziunii și sistemelor generative. De exemplu, cadrele de landmark facial, deși reprezintă obiecte 3D (fețe) în toate cazurile, nu toate necesită calcularea coordonatelor 3D adresabile.

Popularul sistem FANAlign, utilizat pe scară largă în arhitecturile de deepfake din 2017 (printre altele), poate gestiona ambele abordări:

Mai sus, reperele 2D sunt generate pe baza liniamentelor și caracteristicilor recunoscute ale feței. Mai jos, ele sunt raționalizate în spațiul 3D X/Y/Z. Sursă: https://github.com/1adrianb/face-alignment

Mai sus, reperele 2D sunt generate pe baza liniamentelor și caracteristicilor recunoscute ale feței. Mai jos, ele sunt raționalizate în spațiul 3D X/Y/Z. Sursă: https://github.com/1adrianb/face-alignment

Așadar, la fel cum “deepfake” a devenit un termen ambiguu și confiscat, “3D” a devenit și el un termen confuz în cercetarea viziunii computerizate.

Pentru consumatori, a însemnat de obicei media stereo (cum ar fi filmele în care spectatorul trebuie să poarte ochelari speciali); pentru practicienii de efecte vizuale și modelatori, oferă distincția dintre arta 2D (cum ar fi schițele conceptuale) și modelele bazate pe mesh care pot fi manipulate într-un program “3D” cum ar fi Maya sau Cinema4D.

Dar în viziunea computerizată, înseamnă pur și simplu că un sistem de coordonate cartezian există undeva în spațiul latent al modelului – nu că el poate fi adresat sau manipulat direct de către utilizator; cel puțin, nu fără sisteme interpretative CGI bazate pe terțe părți, cum ar fi 3DMM sau FLAME.

Prin urmare, noțiunea de difuziune > 3D este inexactă; nu numai că orice tip de imagine (inclusiv o fotografie reală) poate fi utilizată ca intrare pentru a produce un model CGI generativ, dar termenul mai puțin ambiguu “mesh” este mai potrivit.

Cu toate acestea, pentru a complica ambiguitatea, difuzia este necesară pentru a interpreta fotografia sursă într-un mesh, în majoritatea proiectelor emergente. Așadar, o descriere mai bună ar fi imagine > mesh, în timp ce imagine > difuziune > mesh este o descriere și mai precisă.

Dar acesta este un vânzător dificil la o ședință a consiliului de administrație sau într-un comunicat de presă destinat investitorilor.

Dovezi ale impasului arhitectural

Chiar și comparativ cu 2023, recolta de articole din ultimii 12 luni prezintă o creștere a disperării în jurul eliminării limitelor practice dure ale generării bazate pe difuziune.

Piatra de temelie rămâne generarea de videoclipuri narative și temporal consistente, și menținerea unei aparențe consistente a caracterelor și obiectelor – nu numai în diferite clipuri video, ci și în timpul scurt al unui singur videoclip generat.

Ultima inovație epocală în sinteza bazată pe difuziune a fost apariția LoRA în 2022. Deși sistemele mai noi, cum ar fi Flux, au îmbunătățit unele dintre problemele outlier, cum ar fi fostă incapacitatea Stable Diffusion de a reproduce conținut de text într-o imagine generată, și calitatea generală a imaginii s-a îmbunătățit, majoritatea articolelor pe care le-am studiat în 2024 au fost esențialmente doar mutarea alimentelor pe farfurie.

Aceste impasuri s-au întâmplat și înainte, cu Rețelele Adversative Generative (GAN) și cu Câmpurile de Radiație Neuronale (NeRF), ambele fiind incapabile să își atingă potențialul aparent inițial – și ambele fiind utilizate din ce în ce mai mult în sisteme convenționale (cum ar fi utilizarea NeRF în Stable Zero 123, vezi mai sus). Acest lucru pare să se întâmple și cu modelele de difuziune.

Cercetarea Gaussian Splatting se schimbă

Părea la sfârșitul anului 2023 că metoda de rasterizare 3D Gaussian Splatting (3DGS), care a debutat ca o tehnică de imagistică medicală la începutul anilor ’90, era pe cale să depășească sistemele bazate pe autoencoder în ceea ce privește provocările de sinteză de imagini umane (cum ar fi simularea și recrearea feței, precum și transferul de identitate).

Articolul ASH din 2023 a promis oameni completi 3DGS, în timp ce Gaussian Avatars a oferit detalii masiv îmbunătățite (comparativ cu metodele concurente), împreună cu o reenactare impresionantă.

Acest an, totuși, a fost relativ sărac în astfel de momente de cotitură pentru sinteza umană 3DGS; majoritatea articolelor care au abordat această problemă au fost fie derivate din lucrările de mai sus, fie nu au reușit să le depășească capacitățile.

În schimb, accentul pe 3DGS a fost pus pe îmbunătățirea fezabilității sale arhitecturale, ceea ce a dus la o serie de articole care oferă medii exterioare 3DGS îmbunătățite. Atenția specială a fost acordată abordărilor Simultaneous Localization and Mapping (SLAM) 3DGS, în proiecte cum ar fi Gaussian Splatting SLAM, Splat-SLAM, Gaussian-SLAM, DROID-Splat, printre multe altele.

Proiectele care au încercat să continue sau să extindă sinteza umană bazată pe splat au inclus MIGS, GEM, EVA, OccFusion, FAGhead, HumanSplat, GGHead, HGM și Topo4D. Deși există și altele, niciunul dintre acestea nu a egalat impactul inițial al articolelor care au apărut la sfârșitul anului 2023.

Epoca “Weinstein” a mostrelor de test este în declin

Cercetarea din Asia de Sud-Est, în general (și China, în special), prezintă adesea exemple de test care sunt problematice pentru a fi republicate într-un articol de revizuire, deoarece acestea conțin material care este un pic “picant”.

Indiferent dacă acest lucru se datorează faptului că oamenii de știință din acea parte a lumii încearcă să atragă atenția asupra producției lor este supus dezbaterii; dar în ultimele 18 luni, un număr tot mai mare de articole despre inteligența artificială generativă (sinteză de imagini și/sau video) au recurs la utilizarea femeilor și fetelor tinere și slab îmbrăcate în exemplele de proiect.

Exemple limită de acest tip includ UniAnimate, ControlNext și chiar articole foarte “uscate” cum ar fi Evaluarea consistenței mișcării prin Distanța de mișcare a videoclipului Fréchet (FVMD).

Acest lucru urmează tendințele generale ale subreditelor și altor comunități care s-au adunat în jurul Modelelor de difuziune latente (LDM), unde Regula 34 rămâne foarte mult în evidență.

Confruntarea celebrităților

Acest tip de exemplu inadecvat se suprapune cu recunoașterea în creștere a faptului că procesele de inteligență artificială nu ar trebui să exploateze arbitrar asemănările celebrităților – în special în studii care utilizează exemple care prezintă celebrități atractive, adesea femei, și le plasează în contexte discutabile.

Un exemplu este AnyDressing, care, pe lângă faptul că prezintă personaje feminine tinere în stil anime, utilizează și identitățile unor celebrități clasice, cum ar fi Marilyn Monroe, și unele actuale, cum ar fi Ann Hathaway (care a condamnat această utilizare foarte vocal).

Utilizarea arbitrară a celebrităților actuale și “clasice” este încă destul de comună în articole din Asia de Sud-Est, deși această practică este ușor în declin. Sursă: https://crayon-shinchan.github.io/AnyDressing/

În articolele occidentale, această practică particulară a fost în declin pe tot parcursul anului 2024, condusă de lansările mai mari ale FAANG și ale altor corpuri de cercetare de nivel înalt, cum ar fi OpenAI. Conștienți de potențialul litigiilor viitoare, acești jucători corporativi importanți par din ce în ce mai puțin dispuși să reprezinte chiar și persoane fictive fotorealiste.

Deși sistemele pe care le creează (cum ar fi Imagen și Veo2) sunt în mod evident capabile de astfel de ieșiri, exemplele din proiectele occidentale de inteligență artificială generativă tind acum spre imagini și videoclipuri “drăguțe”, “disneyficte” și extrem de “sigure”.

În ciuda faptului că Imagen este capabil să creeze ieșiri “fotorealiste”, exemplele promovate de Google Research sunt de obicei fantastice, “de familie” – oamenii fotorealisti sunt evitați cu grijă, sau exemplele minimale sunt furnizate. Sursă: https://imagen.research.google/

Spălarea feței

În literatura occidentală de viziune computerizată, această abordare disingenuă este deosebit de evidentă pentru sistemele de personalizare – metode care sunt capabile să creeze asemănări consistente ale unei persoane particulare în multiple exemple (de exemplu, cum ar fi LoRA și mai vechiul DreamBooth).

Exemple includ încorporarea vizuală ortogonală, LoRA-Composer, InstructBooth de la Google și multe altele.

InstructBooth de la Google ridică factorul de “drăguțenie” la 11, deși istoria sugerează că utilizatorii sunt mai interesați de crearea unor oameni fotorealisti decât de personaje “pufos” sau “fluffy”. Sursă: https://sites.google.com/view/instructbooth

Cu toate acestea, creșterea exemplelor “drăguțe” este observată și în alte direcții de cercetare a viziunii computerizate și sintezei, în proiecte cum ar fi Comp4D, V3D, DesignEdit, UniEdit, FaceChain (care recunoaște așteptările realiste ale utilizatorilor pe pagina sa GitHub), și DPG-T2I, printre multe altele.

Ușurința cu care astfel de sisteme (cum ar fi LoRAs) pot fi create de utilizatorii casnici cu hardware relativ modest a condus la o explozie de modele de celebrități disponibile pentru descărcare gratuită la domeniul civit.ai și comunitate. Un astfel de uz ilicit rămâne posibil prin deschiderea arhitecturilor ca Stable Diffusion și Flux.

Deși adesea este posibil să “spargi” funcțiile de securitate ale sistemelor generative de text-la-imagini (T2I) și text-la-videoclipuri (T2V) pentru a produce material interzis de condițiile de utilizare ale unei platforme, decalajul dintre capacitățile limitate ale celor mai bune sisteme (cum ar fi RunwayML și Sora) și capacitățile nelimitate ale sistemelor performante (cum ar fi Stable Video Diffusion, CogVideo și implementări locale ale Hunyuan), nu se închide cu adevărat, așa cum cred mulți.

Mai degrabă, aceste sisteme proprietare și deschise, respectiv, amenință să devină la fel de inutile: sistemele T2V hyperscale și scumpe pot deveni excesiv încătușate din cauza temerilor de litigii, în timp ce lipsa infrastructurii de licențiere și supravegherea seturilor de date în sistemele deschise ar putea să le blocheze complet pe piață pe măsură ce reglementările mai stricte intră în vigoare.

 

Publicat pentru prima dată marți, 24 decembrie 2024

Scriitor pe machine learning, specialist în domeniul sintezei de imagini umane. Foster head of research content la Metaphysic.ai.