Tekoäly
Ymmärtävätkö tekoälyn maailmanmallit todella fyysisiä lakeja?

Visionkielisten tekoälymallien suuri toive on, että niistä tulee jonain päivänä suurempaa autonomiaa ja monipuolisuutta, ja ne sisältävät fyysisten lakien periaatteet pitkälti samalla tavalla kuin kehitämme luontaista ymmärrystä näistä periaatteista varhaisen kokemuksen kautta.
Esimerkiksi lasten pallopeleillä on taipumus kehittyä liikekinetiikan ymmärtäminensekä painon ja pintarakenteen vaikutuksesta lentorataan. Samoin vuorovaikutus yleisten skenaarioiden, kuten kylpyjen, roiskuneiden juomien, valtameren, uima-altaiden ja muiden erilaisten nestemäisten kappaleiden kanssa, juurruttavat meihin monipuolisen ja skaalautuvan käsityksen siitä, miten neste käyttäytyy painovoiman vaikutuksesta.
Jopa harvinaisempien ilmiöiden, kuten palamisen, räjähdyksen ja paineen alaisen arkkitehtonisen painon jakautumisen, oletukset imeytyvät alitajuisesti tv-ohjelmille ja elokuville tai sosiaalisen median videoille altistumisesta.
Kun tutkimme periaatteet Näiden järjestelmien takana akateemisella tasolla me vain "asennamme" intuitiivisia (mutta tietämättömiä) henkisiä mallejamme niistä.
Masters of One
Tällä hetkellä useimmat tekoälymallit ovat sitä vastoin enemmän "erikoistuneita", ja monet niistä ovat kumpaakin hienosäätää tai koulutettu tyhjästä kuva- tai videotietosarjoihin, jotka ovat melko erityisiä tietyille käyttötapauksille sen sijaan, että ne olisivat suunniteltu kehittämään tällaista yleistä ymmärrystä hallitsevista laeista.
Muut voivat esittää ulkomuoto fyysisten lakien ymmärtäminen; mutta he saattavat itse asiassa toistaa näytteitä harjoitustiedoistaan sen sijaan, että ymmärtäisivät liikefysiikan kaltaisten alojen perusasiat tavalla, joka voi tuottaa todella uusia (ja tieteellisesti uskottavia) kuvauksia käyttäjien kehotuksista.
Tällä generatiivisten tekoälyjärjestelmien tuotteistamisen ja kaupallistamisen herkällä hetkellä meidän ja sijoittajien valvonnan tehtävänä on erottaa uusien tekoälymallien muotoiltu markkinointi niiden rajoitusten todellisuudesta.
Yksi marraskuun mielenkiintoisimmat paperit, jota johtaa Bytedance Research, käsitteli tätä ongelmaa tutkimalla kuilua "monikäyttöisten" generatiivisten mallien näennäisten ja todellisten kykyjen välillä. sora.
Työ päätteli, että nykyisellä tekniikan tasolla tämän tyyppisten mallien tuotettu tulos on todennäköisempää ottamalla esimerkkejä harjoitustiedoistaan kuin todellisuudessa osoittamalla täydellistä ymmärrystä taustalla olevista fyysisistä rajoituksista, jotka toimivat todellisessa maailmassa.
Lehdessä lukee*:
"[Näitä] malleja voidaan helposti vääristää "harhaanjohtavilla" esimerkeillä koulutusjoukosta, mikä saa ne yleistämään "tapauspohjaisella" tavalla tietyissä olosuhteissa. Myös tämä ilmiö Havaittu isoissa kielimalleissa kuvaa mallin taipumusta viitata samankaltaisiin koulutustapauksiin uusia tehtäviä ratkaistaessa.
"Otetaan esimerkiksi videomalli, joka on koulutettu tasaisesti lineaarisesti liikkuvan nopean pallon tiedoilla. Jos datan lisäys suoritetaan kääntämällä videoita vaakasuunnassa, mikä tuo mukanaan vastasuuntaista liikettä, malli voi luoda skenaarion, jossa hidas pallo muuttaa suuntaa alkuperäisten ruutujen jälkeen, vaikka tämä käyttäytyminen ei ole fyysisesti oikein.
Tarkastellaan lähemmin lehteä, jonka otsikko on Maailmanmallien arviointi LLM:n kanssa päätöksentekoa varten – pian. Mutta ensin tarkastellaan näiden ilmeisten rajoitusten taustaa.
Muistutus asiat menneisyydestä
Ilman yleistys, koulutettu tekoälymalli on vähän enemmän kuin kallis taulukko, jossa on viittauksia sen harjoitustietojen osiin: etsi sopiva hakutermi ja voit kerätä yhteenvedon näistä tiedoista.
Siinä skenaariossa malli toimii tehokkaasti "hermohakukoneena", koska se ei voi tuottaa abstrakteja tai "luovia" tulkintoja halutusta tuloksesta, vaan sen sijaan toistaa joitain pieniä muutoksia koulutusprosessin aikana näkemistä tiedoista.
Tätä kutsutaan nimellä ulkoa ottaminen – kiistanalainen ongelma, joka syntyy, koska todella taipuisista ja tulkitsevista tekoälymalleista puuttuu yksityiskohtia, kun taas todella yksityiskohtaisista malleista puuttuu omaperäisyys ja joustavuus.
Muistiin tallentavien mallien kyky toistaa harjoitustietoja on mahdollinen oikeudellinen este tapauksissa, joissa mallin tekijöillä ei ollut rasittamattomia oikeuksia käyttää kyseisiä tietoja. ja missä hyödyt näistä tiedoista voidaan osoittaa kasvavalla määrällä uuttamismenetelmät.
Muistimisen vuoksi jälkiä luvattomista tiedoista voi jatkuva, ketjutettu, useiden koulutusjärjestelmien, kuten pysyvän ja tahattoman vesileiman, kautta – jopa projekteissa, joissa koneoppimisen harjoittaja on huolehtinut siitä, että dataa käytetään "turvallisesti".
Maailmanmallit
Muistamisen keskeinen käyttöongelma on kuitenkin se, että sillä on taipumus välittää älykkyyden illuusio, tai ehdottaa, että tekoälymallissa on yleisiä peruslakeja tai -alueita, joissa itse asiassa suuri määrä muistiin tallennettua dataa antaa tämän illuusion (eli mallissa on niin monia mahdollisia dataesimerkkejä valittavana, että ihmisen on vaikeaa kertoakseen, onko se ruokkimassa opittua sisältöä vai onko sillä todella abstrakti ymmärrys sukupolveen liittyvistä käsitteistä).
Tällä ongelmalla on seurauksia kasvavaan kiinnostukseen maailman malleja – mahdollisuus saada erittäin monipuolisia ja kalliisti koulutettuja tekoälyjärjestelmiä, jotka sisältävät useita tunnettuja lakeja ja joita voidaan tutkia runsaasti.
Maailmanmallit ovat erityisen kiinnostavia generatiivisessa kuva- ja videotilassa. Vuonna 2023 RunwayML aloitti a tutkimusaloite tällaisten mallien kehittämiseen ja toteutettavuuteen; DeepMind hiljattain palkattu yksi kehutun Sora-generatiivisen videon alullepanijoista työstämään tällaista mallia; ja startup-yrityksiä kuten Higgsfield investoivat merkittävästi kuvien ja videoiden synteesin maailmanmalleihin.
Kovia yhdistelmiä
Yksi generatiivisten video-AI-järjestelmien uuden kehityksen lupauksista on mahdollisuus oppia fyysisiä peruslakeja, kuten liikettä, ihmisen kinematiikkaa (esim. kävelyn ominaisuudet), Neste dynamiikkaa, ja muut tunnetut fysikaaliset ilmiöt, jotka ovat ainakin visuaalisesti tuttuja ihmisille.
Jos generatiivinen tekoäly voisi saavuttaa tämän virstanpylvään, se voisi kyetä tuottamaan hyperrealistisia visuaalisia tehosteita, jotka kuvaavat räjähdyksiä, tulvia ja uskottavia törmäystapahtumia useiden erityyppisten kohteiden välillä.
Toisaalta, jos tekoälyjärjestelmä on yksinkertaisesti koulutettu tuhansiin (tai satoihin tuhansiin) tällaisia tapahtumia kuvaaviin videoihin, se voisi kyetä toistamaan harjoitustiedot melko vakuuttavasti, kun se on opetettu samankaltaiset tiedot osoittavat käyttäjän kohdekyselyyn; vielä epäonnistua jos kysely yhdistää liian monta käsitettä, jotka eivät tällaisessa yhdistelmässä ole lainkaan edustettuina tiedoissa.
Lisäksi nämä rajoitukset eivät näkyisi heti, ennen kuin järjestelmää työnnetään tämän tyyppisillä haastavilla yhdistelmillä.
Tämä tarkoittaa, että uusi generatiivinen järjestelmä saattaa pystyä tuottamaan viraalista videosisältöä, joka, vaikka se on vaikuttava, voi luoda väärän kuvan järjestelmän kyvyistä ja ymmärryksen syvyydestä, koska sen edustama tehtävä ei ole järjestelmälle todellinen haaste.
Esimerkiksi suhteellisen yleinen ja hyvin levinnyt tapahtuma, kuten "rakennus puretaan", saattaa olla läsnä useissa videoissa tietojoukossa, jota käytetään kouluttamaan mallia, jolla oletetaan jonkin verran ymmärrystä fysiikasta. Siksi malli voisi oletettavasti yleistää tämän käsitteen hyvin ja jopa tuottaa aidosti uudenlaisia tuloksia runsaista videoista opittujen parametrien puitteissa.
Tämä on jakelussa Esimerkiksi, jossa tietojoukko sisältää monia hyödyllisiä esimerkkejä tekoälyjärjestelmän oppimista varten.
Kuitenkin, jos pyydetään oudempaa tai harhaanjohtavaa esimerkkiä, kuten "Alienit räjäyttävät Eiffel-tornin", mallin olisi yhdistettävä erilaisia alueita, kuten "metallurgiset ominaisuudet", "räjähdysten ominaisuudet", "painovoima", "tuulenkestävyys" ja "avaruusalukset".
Tämä on pois jakelusta (OOD) esimerkki, joka yhdistää niin monia sotkeutuneita käsitteitä, että järjestelmä todennäköisesti joko epäonnistuu luomaan vakuuttavaa esimerkkiä tai valitsee oletuksena lähimmän semanttisen esimerkin, johon se on opetettu – vaikka tämä esimerkki ei noudata käyttäjän kehotusta.
Lukuun ottamatta sitä, että mallin lähdeaineisto sisälsi Hollywood-tyylin CGI-pohjaisen VFX:n, joka kuvaa samaa tai samanlaista tapahtumaa, tällainen kuvaus edellyttäisi ehdottomasti, että se saavuttaa hyvin yleistetyn ja joustavan ymmärryksen fysikaalisista laeista.
Fyysiset rajoitukset
Uusi paperi – yhteistyö Bytedancen, Tsinghuan yliopiston ja Technionin välillä – viittaa paitsi siihen, että Soran kaltaiset mallit eivät emme todella sisäistää deterministiset fyysiset lait tällä tavalla, mutta tietojen skaalaaminen (yleinen lähestymistapa viimeisten 18 kuukauden aikana) ei useimmissa tapauksissa näytä tuottavan todellista parannusta tässä suhteessa.
Tutkimuksessa ei tutkita vain tiettyjen fysikaalisten lakien ekstrapoloinnin rajoja – kuten liikkeessä olevien esineiden käyttäytymistä niiden törmääessä tai kun niiden reitti on estynyt – vaan myös mallin kykyä kombinatorinen yleistys – tapaukset, joissa kahden eri fyysisen periaatteen esitykset yhdistetään yhdeksi generatiiviseksi tuotokseksi.
Video tiivistelmä uudesta lehdestä. Lähde: https://x.com/bingyikang/status/1853635009611219019
Kolme tutkijoiden tutkittavaksi valitsemaa fysikaalista lakia olivat parabolinen liike; tasaista lineaarista liikettä, Ja täysin elastinen törmäys.
Kuten yllä olevasta videosta näkyy, havainnot osoittavat, että Soran kaltaiset mallit eivät todellakaan sisäistä fyysisiä lakeja, vaan pyrkivät toistamaan harjoitustietoja.
Lisäksi kirjoittajat havaitsivat, että puolet, kuten väri ja muoto, sotkeutuvat niin yhteen päättelyhetkellä, että luotu pallo muuttuisi todennäköisesti neliöksi, ilmeisesti siksi, että tietojoukon esimerkissä vastaavassa liikkeessä oli neliö eikä pallo (katso esimerkki videosta upotettu yllä).
Paperi, jossa on erityisesti kihloissa sosiaalisen median tutkimussektori päättelee:
"Tutkimuksemme viittaa siihen, että skaalaus yksinään ei riitä videon sukupolven mallien paljastamiseen fyysisten peruslakien löytämiseksi, vaikka sillä on rooli Soran laajemmassa menestyksessä…
"…[löydökset] osoittavat, että skaalaus yksin ei ratkaise OOD-ongelmaa, vaikka se parantaa suorituskykyä muissa skenaarioissa.
"Syvällinen analyysimme viittaa siihen, että videomallin yleistäminen perustuu enemmän samankaltaisiin koulutusesimerkkeihin viittaamiseen kuin yleisten sääntöjen oppimiseen. Havaitsimme tärkeysjärjestyksen väri > koko > nopeus > muoto tässä "tapauspohjaisessa" käyttäytymisessä.
"[Meidän] tutkimuksemme viittaa siihen, että naiivi skaalaus ei riitä videon generointimalleille löytääkseen fyysisiä peruslakeja."
Yksi paperin kirjoittajista kysyi, onko tutkimusryhmä löytänyt ratkaisun ongelmaan kommentoi:
'Valitettavasti meillä ei ole. Itse asiassa tämä on luultavasti koko tekoälyyhteisön tehtävä.
Menetelmä ja tiedot
Tutkijat käyttivät a Vaihteleva autoenkooderi (VAE) ja Dit arkkitehtuurit videonäytteiden luomiseksi. Tässä asetuksessa pakattu piileviä esityksiä VAE:n tuottama työ yhdessä DiT:n mallinnuksen kanssa meluista prosessiin.
Videot opetettiin Stable Diffusion V1.5-VAE:llä. Kaava jätettiin pohjimmiltaan ennalleen, ja siinä tehtiin vain prosessin lopun arkkitehtonisia parannuksia:
"[Säilytämme] suurimman osan alkuperäisestä 2D-konvoluutiosta, ryhmän normalisoinnista ja huomiomekanismeista tilaulottuvuuksissa.
"Tämän rakenteen lisäämiseksi tila-ajalliseksi automaattiseksi kooderiksi muunnamme kooderin muutamat viimeiset 2D-alasnäytteenottolohkot ja dekooderin ensimmäiset 2D-ylänäytelohkot 3D-lohkoiksi ja käytämme useita ylimääräisiä 1D-kerroksia parantaaksemme ajallista mallintamista. '
Videomallinnuksen mahdollistamiseksi modifioitu VAE koulutettiin yhdessä HQ-kuva- ja videodatan kanssa, ja SD2-arkkitehtuuriin kuuluva 1.5D Generative Adversarial Network (GAN) -komponentti lisättiin 3D:tä varten.
Käytetty kuvatietojoukko oli Stable Diffusionin alkuperäinen lähde, LAION-Estetiikka, suodatuksella, lisäksi DataComp. Videodatan osajoukko kuratoitiin kohteesta Vimeo-90K, Panda-70m ja HDVG aineistot.
Dataa opetettiin miljoonalla askeleella satunnaisesti muutettua rajausta ja satunnaista vaakasuuntaista kääntöä sovellettiin datan lisäys prosesseissa.
Kääntyminen ulos
Kuten edellä todettiin, satunnainen vaakasuora flip-datan lisäys prosessi voi olla velvollisuus koulutettaessa järjestelmää, joka on suunniteltu tuottamaan autenttista liikettä. Tämä johtuu siitä, että koulutetun mallin tulos voi harkita sekä kohteen suunnat ja aiheuttaa satunnaisia käänteitä, kun se yrittää neuvotella näistä ristiriitaisista tiedoista (katso upotettu video yllä).
Toisaalta, jos käännetään vaakatasossa pois, malli tuottaa silloin todennäköisemmin tulosta, joka noudattaa sitä vain yksi suunta oppia harjoitustiedoista.
Ongelmaan ei siis ole helppoa ratkaisua, paitsi että järjestelmä todella omaksuu kaikki liikkumismahdollisuudet sekä alkuperäisestä että käännetystä versiosta – ominaisuus, jota lapset kehittävät helposti, mutta joka on ilmeisesti enemmän haastetta tekoälymalleille. .
Testit
Ensimmäistä koesarjaa varten tutkijat muotoilivat 2D-simulaattorin tuottamaan klassisen mekaniikan lakien mukaisia videoita esineiden liikkeestä ja törmäyksistä, mikä tarjosi suuren volyymin ja kontrolloidun tietojoukon, joka sulki pois tosielämän videoiden epäselvyydet. mallien arviointi. The Laatikko2D fysiikan pelimoottoria käytettiin näiden videoiden luomiseen.
Kolme yllä lueteltua perusskenaariota olivat testien painopiste: tasainen lineaarinen liike, täydellisesti elastiset törmäykset ja parabolinen liike.
Kasvavan kokoisia tietojoukkoja (vaihtelevat 30,000 XNUMX:sta kolmeen miljoonaan videoon) käytettiin erikokoisten ja monimutkaisten mallien (DiT-S:stä DiT-L:ään) kouluttamiseen, ja kunkin videon kolmea ensimmäistä kehystä käytettiin ehdoin.

Yksityiskohdat vaihtelevista malleista, jotka on koulutettu ensimmäisessä kokeessa. Lähde: https://arxiv.org/pdf/2411.02385
Tutkijat havaitsivat, että jakauman (ID) tulokset skaalautuivat hyvin tietomäärien kasvaessa, kun taas OOD-sukupolvet eivät parantuneet, mikä osoittaa puutteita yleistyksessä.

Ensimmäisen testikierroksen tulokset.
Kirjailijat huomauttavat:
"Nämä havainnot viittaavat siihen, että skaalaus ei pysty suorittamaan päättelyä OOD-skenaarioissa."
Seuraavaksi tutkijat testasivat ja kouluttivat järjestelmiä, jotka on suunniteltu osoittamaan taitoa kombinatoriseen yleistykseen, jossa kaksi vastakkaista liikettä yhdistetään (toivottavasti) yhtenäisen liikkeen tuottamiseksi, joka on uskollinen kunkin erillisen liikkeen taustalla olevalle fysikaaliselle laille.
Tässä testivaiheessa kirjoittajat käyttivät PHYRE simulaattori, joka luo 2D-ympäristön, joka kuvaa useita ja erimuotoisia esineitä vapaassa pudotuksessa, jotka törmäävät toisiinsa monissa monimutkaisissa vuorovaikutuksissa.
Tämän toisen testin arviointimittarit olivat Fréchet Video Distance (FVD); Rakenteellisen samankaltaisuuden indeksi (SSIM); Huippusignaali-kohinasuhde (PSNR); Oppineet havainnon samankaltaisuusmittarit (LPIPS); ja ihmisillä tehty tutkimus (merkitty tuloksissa "epänormaaliksi").
Harjoittelutietosarjoja luotiin kolme asteikkoa: 100,000 0.6 videota, 3 miljoonaa videota ja 6-XNUMX miljoonaa videota. DiT-B- ja DiT-XL-malleja käytettiin videoiden lisääntyneen monimutkaisuuden vuoksi, jolloin ensimmäinen ruutu käytettiin käsittelyyn.
Mallit koulutettiin miljoona askelta 256 × 256 resoluutiolla ja 32 kuvaa videota kohti.

Toisen testikierroksen tulokset.
Tämän testin tulos viittaa siihen, että pelkkä datamäärän lisääminen on riittämätön lähestymistapa:
Paperissa todetaan:
"Nämä tulokset viittaavat siihen, että sekä mallikapasiteetti että yhdistelmätilan kattavuus ovat ratkaisevia kombinatoriselle yleistämiselle. Tämä oivallus viittaa siihen, että videoiden luomista koskevien skaalauslakien tulisi keskittyä yhdistelmien monimuotoisuuden lisäämiseen pelkän datamäärän lisäämisen sijaan.
Lopuksi tutkijat suorittivat lisätestejä selvittääkseen, voivatko videon sukupolven mallit todella omaksua fyysisiä lakeja vai muistaako se vain ja toistaako se harjoitustiedot päättelyhetkellä.
Tässä he tarkastelivat tapauspohjaisen yleistyksen käsitettä, jossa mallit pyrkivät jäljittelemään erityisiä koulutusesimerkkejä uusien tilanteiden kohtaamisessa, sekä esimerkkejä yhtenäisestä liikkeestä – erityisesti kuinka harjoitustiedon liikkeen suunta vaikuttaa koulutetun mallin ennusteisiin. .
Kaksi harjoitustietosarjaa yhtenäinen liike ja törmäys, on kuratoitu, joista jokainen koostui yhtenäisistä liikevideoista, jotka kuvaavat 2.5–4 yksikön nopeuksia, ja kolmea ensimmäistä kehystä käytettiin ehdoin. Piilevät arvot, kuten nopeus jätettiin pois, ja koulutuksen jälkeen testattiin sekä näkyviä että näkymättömiä skenaarioita.
Alla näemme tulokset tasaisen liikkeen muodostuksen testistä:

Tulokset tasaisen liikkeen generointitesteistä, joissa 'nopeus'-muuttuja jätetään pois harjoittelun aikana.
Kirjoittajat toteavat:
"[Koska] harjoitussarjassa on suuri aukko, malli pyrkii luomaan videoita, joissa nopeus on joko korkea tai pieni, muistuttamaan harjoitustietoja, kun alkukehykset näyttävät keskialueen nopeuksia."
Törmäystesteissä käytetään paljon enemmän muuttujia, ja mallin on opittava kaksiulotteinen epälineaarinen funktio.

Törmäys: kolmannen ja viimeisen testikierroksen tulokset.
Kirjoittajat huomauttavat, että "petolliset" esimerkit, kuten käänteinen liike (eli pallo, joka pomppii pinnalta ja kääntää kurssinsa), voi johtaa mallia harhaan ja saada sen luomaan fyysisesti vääriä ennusteita.
Yhteenveto
Jos ei-AI-algoritmi (eli "paistettu", proseduurimenetelmä) sisältää matemaattiset säännöt Fysikaalisten ilmiöiden, kuten nesteiden tai painovoiman tai paineen alaisena olevien esineiden käyttäytymistä varten on olemassa joukko muuttumattomia vakioita tarkkaa toistoa varten.
Uuden paperin havainnot osoittavat kuitenkin, että tällaista ekvivalenttia suhdetta tai sisäistä ymmärrystä klassisista fysikaalisista laeista ei kehity generatiivisten mallien harjoittamisen aikana ja että kasvava datamäärä ei ratkaise ongelmaa, vaan pikemminkin hämärtää sitä – koska yhä useammat koulutusvideoita on saatavilla järjestelmän jäljittelemiseksi päättelyhetkellä.
* Muutokseni tekijöiden tekstin sisäisistä lainauksista hyperlinkeiksi.
Julkaistu ensimmäisen kerran tiistaina 26