Tekoäly

Henkilökohtainen näkemys tietokoneen näön kirjallisuuden trendeistä vuonna 2024

Published December 24, 2024

Updated April 27, 2026

Martin Anderson

ChatGPT image: 'A panoramic orthographic-view image of a stylized bunch of SIMs-style scientists working in white coats at a computer research laboratory. Ariel view, orthographic projection, stylized, cartoon-style.'

Olen seurannut jatkuvasti tietokoneen näön (CV) ja kuvien synteesin tutkimuskohteita Arxivissa ja muualla noin viiden vuoden ajan, joten trendit tulevat ilmi ajan myötä, ja ne siirtyvät uusiin suuntiin joka vuosi.

Sen vuoksi, kun vuosi 2024 lähestyy loppuaan, ajattelin olla sopivaa tarkastella joitain uusia tai kehittyviä piirteitä Arxivin julkaisuissa Tietokoneen näön ja mallintamisen osiossa. Nämä havainnot, vaikka ne perustuvat satoihin tunteja tutkimukseen, ovat ehdottomasti anekdoottisia.

Itä-Aasian jatkuva nousu

Vuoden 2023 lopussa olin huomannut, että suurin osa “äänen synteesi” -luokan kirjallisuudesta tuli Kiinasta ja muista Itä-Aasian alueista. Vuoden 2024 lopussa minun on havaittava (anekdoottisesti), että tämä koskee myös kuvien ja videoiden synteesin tutkimuskohteita.

Tämä ei tarkoita, että Kiina ja sen naapurimaat tuottavat välttämättä aina parasta työtä (todellisuudessa on joitain näyttöjä vastakkaisesta); eikä se ottaa huomioon sitä, että Kiinassa (kuten lännessä) on korkea todennäköisyys, että jotkut kaikkein mielenkiintoisimmista ja voimakkaimmista uusista kehittyvistä järjestelmistä ovat omistaja- ja suljettuja, ja poistettu tutkimuskirjallisuudesta.

Mutta se viittaa siihen, että Itä-Aasia voittaa lännen määrällä, tässä suhteessa. Sen arvo riippuu siitä, kuinka paljon uskot Edison-tyyppiseen määrätietoiseen kehittymiseen, joka yleensä osoittautuu tehokkaaksi vastustamattomien esteiden edessä.

On monia vastaavanlaisia esteitä generatiivisessa tekoälyssä, ja ei ole helppoa tietää, mitkä voidaan ratkaista olemassaolevien arkkitehtuurien kautta, ja mitkä vaativat uudelleenarviointia nollasta.

Vaikka Itä-Aasian tutkijat näyttävät tuottavan suuremman määrän tietokoneen näön tutkimuksia, olen huomannut, että “Frankenstein-tyyppiset” projektit – aloitteet, jotka muodostuvat aikaisempien töiden yhdistelmästä, lisäten vähän arkkitehtonista uudelleenmuokkausta (tai mahdollisesti vain erilaista dataa) – ovat yleistyneet.

Tänä vuonna suurempi määrä Itä-Aasian (pääasiassa Kiinan tai Kiinan osallistumisesta) julkaisuja näytti olevan kiintiöllisiä eikä ansioita perustuvia, mikä lisäsi merkittävästi signaali-kohina-suhdetta jo valmiiksi ylikuormitettujen alojen keskuudessa.

Samaan aikaan suurempi määrä Itä-Aasian julkaisuja on myös herättänyt huomioni ja ihailuni vuonna 2024. Jos tämä on pelkästään määrän peli, se ei ole epäonnistunut – mutta ei myöskään halpa.

Julkaisujen määrän kasvu

Julkaisujen määrä on ilmeisesti kasvanut vuonna 2024.

Suosituin julkaisupäivä vaihtelee vuoden aikana; tällä hetkellä se on tiistai, jolloin julkaisujen määrä Tietokoneen näön ja mallintamisen osiossa on usein noin 300-350 yhdessä päivässä “huippukausina” (toukokuusta elokuuhun ja lokakuusta joulukuuhun, eli konferenssien ja “vuosittaisen kiintiön” kauden aikana).

Omaa kokemustani pidemmälle, Arxiv ilmoittaa uuden ennätyksen julkaisuista lokakuussa 2024, 6000 uutta julkaisua, ja Tietokoneen näön osio on toiseksi eniten julkaisuja saanut osio Machine Learningin jälkeen.

Kuitenkin, koska Machine Learning -osio Arxivissa käytetään usein “lisäksi” tai kokoavaa yläluokkaa, tämä viittaa siihen, että Tietokoneen näkö ja mallintaminen on todella eniten julkaisuja saanut Arxivin kategoria.

Arxivin omien tilastojen mukaan tietokoneet ovat selvästi johtavat julkaisujen määrässä:

Tietokoneet (CS) hallitsevat julkaisutilastoja Arxivissa viiden viime vuoden ajan. Lähde: https://info.arxiv.org/about/reports/submission_category_by_year.html

Stanfordin yliopiston AI-indeksi 2024 korostaa myös merkittävää kasvua akateemisten julkaisujen määrässä koneoppimisen ympärillä viime vuosina:

Vaikka luvut eivät ole saatavilla vuodelta 2024, Stanfordin raportti osoittaa dramaattisesti koneoppimisen julkaisujen määrän kasvun. Lähde: https://aiindex.stanford.edu/wp-content/uploads/2024/04/HAI_AI-Index-Report-2024_Chapter1.pdf

Diffuusioiden ylitys – kehikkorakenteiden lisääntyminen

Toinen ilmeinen trendi, joka tuli ilmi minulle, oli suuri kasvu julkaisuissa, jotka käsittelevät Latentti-Diffuusiomallien (LDM) käyttämistä generaattoreina mesh-pohjaisille, “perinteisille” CGI-malleille.

Tällaisia projekteja ovat esimerkiksi Tencentin InstantMesh3D, 3Dtopia, Diffuusio², V3D, MVEdit ja GIMDiffusion, sekä monia muita.

Verkkokehysten generointi ja hienosäätö diffuusioprosessin kautta 3Dtopiassa. Lähde: https://arxiv.org/pdf/2403.02234

Tämä uusi tutkimussuunta voidaan tulkita myöntymiseksi siihen, että generatiiviset järjestelmät, kuten diffuusiomallit, ovat edelleen ratkaisemattomia – vaikka vain kaksi vuotta sitten ne olivat lupaavia vaihtoehtoja kaikille järjestelmille, joita diffuusioiden ylitys – kehikkorakenteet nyt pyrkivät korvaamaan; diffuusiota siis rajoittuu työkaluksi teknologioissa ja työnkulkuissa, jotka ovat peräisin 30 tai useammasta vuodesta.

Stability.ai, avoimen lähdekoodin Stable Diffusion -mallin kehittäjä, on juuri julkaissut Stable Zero123 -järjestelmän, joka voi muun muassa käyttää Neuraalisen säteilyn kentän (NeRF) tulkintaa AI-generoidusta kuvasta siltaa luodakseen eksplisiittisen, mesh-pohjaisen CGI-mallin, jota voidaan käyttää CGI-ympäristöissä, kuten Unityssa, videopelien, lisätyn todellisuuden ja muiden alustoissa, jotka vaativat eksplisiittisiä 3D-koordinaatteja, ei-implisiittisiä (piilotettuja) koordinaatteja, kuten jatkuvia funktioita.

Paina toistamaan. Kuvat, jotka on generoitu Stable Diffusionissa, voidaan muuttaa järkeviksi CGI-verkkomalleiksi. Tässä nähdään tulokset kuvasta CGI-työnkulkuun Stable Zero 123: n avulla. Lähde: https://www.youtube.com/watch?v=RxsssDD48Xc

3D-semantiikka

Generatiivisen tekoälyn tilassa tehdään ero 2D- ja 3D-järjestelmien toteutuksissa näön ja generatiivisten järjestelmien osalta. Esimerkiksi kasvojen määritysmallit, vaikka ne edustavat 3D-olioita (kasvoja) kaikissa tapauksissa, eivät välttämättä laske osoitettavia 3D-koordinaatteja.

Suosittu FANAlign-järjestelmä, jota on laajasti käytetty vuoden 2017 deepfake-arkkitehtuureissa (muun muassa), voi käsitellä molempia lähestymistapoja:

Yläpuolella 2D-maamerkit luodaan pelkästään tunnistettujen kasvon piirteiden perusteella. Alapuolella ne rationalisoidaan 3D X/Y/Z -avaruuteen. Lähde: https://github.com/1adrianb/face-alignment

Niin kuin “deepfake” on muuttunut epämääräiseksi ja ryöstetyksi termeksi, “3D” on myös muuttunut hämäriksi termeksi tietokoneen näön tutkimuksessa.

Kuluttajille se on tyypillisesti tarkoittanut stereo-kelpoista mediaa (kuten elokuvia, joissa katsoja on pakotettu käyttämään erityisiä laseja); visuaalisten efektien ammattilaisille ja mallinnoitsijoille se tarjoaa eron 2D-taiteesta (kuten konseptipiirroksista) ja mesh-pohjaisista malleista, joita voidaan muokata “3D-ohjelmassa” kuten Maya tai Cinema4D.

Mutta tietokoneen näössä se tarkoittaa vain sitä, että karteesinen koordinaatisto on olemassa jossakin latenttiavaruudessa mallissa – ei sitä, että se voidaan osoittaa tai muokata suoraan käyttäjän toimesta; ainakaan ilman kolmannen osapuolen tulkkaavia CGI-pohjaisia järjestelmiä, kuten 3DMM tai FLAME.

Sen vuoksi diffuusioiden ylitys – 3D -käsite on epätarkka; ei vain mikä tahansa kuvatyyppi (mukaan lukien todellinen valokuva) voidaan käyttää syötteenä generatiivisen CGI-mallin tuottamiseksi, vaan epäselvempi termi “verkko” on sovelias.

Rakenteelliset umpikujat

Edelliseen verrattuna viimeisen 12 kuukauden aikana julkaistuissa tutkimuksissa on nähtävissä kasvavaa epätoivoa poistamaan kovan käytännön rajoitukset diffuusiopohjaisesta generoinnista.

Avain esteenä on edelleen narratiivisesti ja ajallisesti yhdenmukaisen videon generointi, sekä hahmojen ja esineiden yhdenmukaisen ulkonäön ylläpitäminen – ei vain eri videoklipien välillä, vaan jopa yhden generoidun videoklipin lyhyen ajan sisällä.

Viimeisin merkittävä innovaatio diffuusiopohjaisessa synteesissä oli LoRA:n saapuminen vuonna 2022. Vaikka uudet järjestelmät, kuten Flux, ovat parantaneet joitain poikkeusongelmia, kuten Stable Diffusionin entisen kyvyttömyyden toistaa tekstiä generoidussa kuvassa, ja kokonaisvaltainen kuvan laatu on parantunut, suurin osa tutkimuksista, joita tutkin vuonna 2024, oli perustuu vain siirtämään ruokaa lautaselta toiselle.

Tällaiset umpikujat ovat tapahtuneet aiemminkin, kuten Generatiivisilla Adversariaalisilla Verkoilla (GAN) ja Neuraalisilla Säteilyn Kentillä (NeRF), jotka molemmat epäonnistuivat täyttämään odotuksia – ja molemmat ovat yhä enenevissä määrin mukana perinteisemmissä järjestelmissä (kuten NeRF:n käytössä Stable Zero 123:ssa, ks. yllä). Tämä näyttää tapahtuvan myös diffuusiomalleilla.

Gaussian Splatting -tutkimuksen suuntaukset

Vaikuttaa siltä, että 3D Gaussian Splatting (3DGS) -menetelmä, joka debytoi lääketieteellisenä kuvantamistekniikkana 1990-luvun alussa, oli valmis ohittamaan autoencoder-pohjaiset järjestelmät ihmisen kuvan synteesihaasteissa (kuten kasvon simulaatiossa ja uudelleenluomisessa sekä identiteetin siirrossa).

Vuoden 2023 ASH-tutkimus lupasi täysin kehittyneitä 3DGS-ihmisiä, kun taas Gaussian Avatars tarjosi merkittävästi parannettua yksityiskohtaisuutta (vertailukelpoisia muihin menetelmiin) yhdessä vaikuttavalla esityksellä.

Tänä vuonna on kuitenkin ollut suhteellisen vähän sellaisia läpimurtohetkiä Gaussian Splatting -ihmisen synteesissä; useimmat tutkimukset, jotka käsittelevät tätä ongelmaa, olivat joko johdannaisia edellä mainituista töistä tai eivät kyenneet ylittämään niiden kykyjä.

Sen sijaan painopiste on ollut 3DGS:n perusrakenteellisen toteutuskyvyn parantamisessa, mikä on johtanut määrään tutkimuksia, jotka tarjoavat parannettuja 3DGS: n ulkoisia ympäristöjä. Erityistä huomiota on kiinnitetty Simultaneous Localization and Mapping (SLAM) 3DGS-lähestymistapoihin, projekteissa kuten Gaussian Splatting SLAM, Splat-SLAM, Gaussian-SLAM, DROID-Splat, sekä monissa muissa.

Ne tutkimukset, jotka yrittivät jatkaa tai laajentaa splat-pohjaista ihmisen synteesiä, sisälsivät MIGS, GEM, EVA, OccFusion, FAGhead, HumanSplat, GGHead, HGM ja Topo4D. Vaikka on muita, mikään näistä ei vastannut alun perin vuonna 2023 ilmestyneiden tutkimusten vaikutusta.

‘Weinstein-kauden’ testinäytteiden lasku

Etelä-Aasian tutkimus, yleisesti ottaen (ja Kiina erityisesti), usein esittää testiesimerkkejä, jotka ovat ongelmallisia julkaisemiseen tarkasteluarvostelussa, koska ne sisältävät materiaalia, joka on hieman “värikästä”.

On vaikea sanoa, onko tämä johtuu siitä, että tutkijat tässä maailman osassa pyrkivät herättämään huomiota tuotoksilleen; mutta viimeisen 18 kuukauden ajan suurempi määrä tutkimuksia generatiivisesta tekoälystä (kuvan ja/tai videon synteesi) on oletettavasti käyttänyt nuoria ja paljastavia naisia ja tyttöjä esimerkkeinä.

Tämä seuraa yleisiä trendejä alaryhmiin ja yhteisöihin, jotka ovat kokoontuneet Latentti-Diffuusiomallien (LDM) ympärille, joissa Rule 34 on edelleen voimassa.

Julkkisten kasvojen vastakkainasettelu

Tällainen epäsopiva esimerkki limittyy kasvavaan tietoisuuteen siitä, ettei AI-prosesseja pidä käyttää julkkisten ulkonäön hyväksikäyttöön – erityisesti tutkimuksissa, jotka käyttävät esimerkkejä julkkisten mukaan, usein naisten, ja asettavat heidät kyseenalaisiin yhteyksiin.

Yksi esimerkki on AnyDressing, joka käyttää vapaasti sekä nuoria anime-tyylisiä naishahmoja että klassisten julkkisten, kuten Marilyn Monroen, identiteettejä, ja asettaa heidät kyseenalaisiin yhteyksiin.

Arbitraarinen käyttö nykyisistä ja “klassisista” julkkiksista on edelleen yleinen Etelä-Aasian tutkimuksissa, vaikka tämä käytäntö on hieman laskussa. Lähde: https://crayon-shinchan.github.io/AnyDressing/

Länsimaisten tutkimuksissa tämä tietty käytäntö on ollut huomattavasti laskussa vuoden 2024 aikana, johtavana FAANG:in ja muiden korkean tason tutkimusyksiköiden julkaisuissa, kuten OpenAI. Oltuaan tietoisia mahdollisista tulevista oikeudellisista seuraamuksista, nämä suuret yritykset näyttävät yhä enenevissä määrin haluttomilta esittämään jopa kaikkia fotorealistisia ihmishahmoja.

Vaikka järjestelmät, joita he luovat (kuten Imagen ja Veo2), ovat ilmeisesti kykeneviä tuottamaan tällaista sisältöä, esimerkit länsimaisista generatiivisen tekoälyn projekteista suosivat nyt “söpöjä”, disneyfiksiä ja erittäin “turvallisia” kuvia ja videoita.

Vaikka Imagenin kykyä luoda “fotorealistista” sisältöä ylistetään, Google Researchin esittämät esimerkit ovat tyypillisesti fantastisia, “perheystävällisiä” – fotorealistiset ihmiset pyritään välttämään tai niistä annetaan vain vähän esimerkkejä. Lähde: https://imagen.research.google/

Kasvojen pesu

Länsimaisessa CV-kirjallisuudessa tämä epärehellinen lähestymistapa on erityisesti nähtävissä mukauttamisjärjestelmissä – menetelmissä, jotka pystyvät luomaan yhdenmukaisia ulkonäköjä tietyn henkilön eri esimerkeissä (esim. LoRA ja vanhempi DreamBooth).

Esimerkkejä ovat ortogonaalinen visuaalinen upotus, LoRA-Composer, Google InstructBooth ja monia muita.

Google InstructBooth lisää söpöyttä tekijöihin, vaikka historia viittaa siihen, että käyttäjät ovat kiinnostuneita luomaan fotorealistisia ihmisiä enemmän kuin pehmeitä tai viiltäviä hahmoja. Lähde: https://sites.google.com/view/instructbooth

Tämä “söpö esimerkki” -nousu näkyy myös muissa CV- ja synteesitutkimuksen suuntauksissa, projekteissa kuten Comp4D, V3D, DesignEdit, UniEdit, FaceChain (joka myöntää realistisemmat käyttäjän odotukset GitHub-sivulla), ja DPG-T2I, sekä monissa muissa.

Näiden järjestelmien (kuten LoRA) helppokäyttöisyys kotikäyttäjien suhteen, joiden laitteisto on suhteellisen vaatimaton, on johtanut räjähdysmäiseen kasvuun vapaasti ladatavissa olevien julkkis-malleja civit.ai -verkkotunnus ja yhteisössä. Tällainen laiton käyttö on edelleen mahdollista avoimien arkkitehtuurien, kuten Stable Diffusion ja Flux, avoimesta lähdekoodista.

Vaikka on usein mahdollista ohittaa generatiivisen teksti-kuvaksi (T2I) ja teksti-videoksi (T2V) -järjestelmien turvallisuusominaisuuksia tuottamaan materiaalia, jota alusta kieltää käyttöehdoissaan, ero parhaiden järjestelmien (kuten RunwayML ja Sora) rajoitettujen kykyjen ja suorituskyvyltään vaatimattomampien järjestelmien (kuten Stable Video Diffusion, CogVideo ja paikalliset Hunyuan -järjestelmien) välillä ei välttämättä ole sulkeutumassa, kuten monet uskovat.

Sen sijaan nämä omistajien ja avoimen lähdekoodin järjestelmät uhkaavat muodostua yhtä hyödyttömiksi: kalliit ja hyperskaalaiset T2V-järjestelmät voivat muodostua liian rajoitetuiksi oikeudellisen vastuun pelossa, kun taas avoimen lähdekoodin järjestelmien puute lisenssirakenteessa ja tietojoukkoihin liittyvässä valvonnassa voi lukita ne kokonaan markkinoilta, kun tiukemmat säännökset tulevat voimaan.

Julkaistu ensimmäisen kerran tiistaina, 24. joulukuuta 2024

Martin Anderson

Kirjailija tekoälystä, alan erikoisosaaja ihmiskuvien synteesissä. Entinen tutkimussisällön johtaja Metaphysic.ai:lla.
Henkilökohtainen sivu: martinanderson.ai
Ota yhteyttä: [email protected]