Kunsmatige Intelligensie
Kan KI-wêreldmodelle werklik fisiese wette verstaan?

Die groot hoop vir visietaal-KI-modelle is dat hulle eendag in staat sal wees tot groter outonomie en veelsydigheid, wat beginsels van fisiese wette inkorporeer op baie dieselfde manier as wat ons 'n ingebore begrip van hierdie beginsels ontwikkel deur vroeë ervaring.
Kinders se balspeletjies is byvoorbeeld geneig om te ontwikkel 'n begrip van bewegingskinetika, en van die effek van gewig en oppervlaktekstuur op trajek. Net so sal interaksies met algemene scenario's soos baddens, gemorste drankies, die see, swembaddens en ander diverse vloeibare liggame by ons 'n veelsydige en skaalbare begrip van die maniere waarop vloeistof onder swaartekrag optree, inboesem.
Selfs die postulate van minder algemene verskynsels – soos verbranding, ontploffings en argitektoniese gewigsverspreiding onder druk – word onbewustelik geabsorbeer deur blootstelling aan TV-programme en flieks, of sosiale media-video's.
Teen die tyd dat ons die studie bestudeer beginsels agter hierdie stelsels, op 'n akademiese vlak, is ons bloot besig om ons intuïtiewe (maar oningeligte) geestelike modelle daarvan te 'terugfit'.
Meesters van Een
Tans is die meeste KI-modelle daarenteen meer 'gespesialiseerd', en baie van hulle is ook verfyn of van nuuts af opgelei op beeld- of videodatastelle wat redelik spesifiek is vir sekere gebruiksgevalle, eerder as wat ontwerp is om so 'n algemene begrip van heersende wette te ontwikkel.
Ander kan die aanbied voorkoms van 'n begrip van fisiese wette; maar hulle kan eintlik monsters van hul opleidingsdata weergee, eerder as om werklik die basiese beginsels van gebiede soos bewegingsfisika te verstaan op 'n manier wat werklik nuwe (en wetenskaplik aanneemlike) uitbeeldings uit gebruikers se aanwysings kan produseer.
Op hierdie delikate oomblik in die produktisering en kommersialisering van generatiewe KI-stelsels, word dit aan ons, en aan beleggers se ondersoek, oorgelaat om die vervaardigde bemarking van nuwe KI-modelle te onderskei van die realiteit van hul beperkings.
Een van November s'n mees interessante vraestelle, gelei deur Bytedance Research, het hierdie kwessie aangepak en die gaping tussen die oënskynlike en werklike vermoëns van 'all-purpose' generatiewe modelle ondersoek, soos Sora.
Die werk het tot die gevolgtrekking gekom dat op die huidige stand van die kuns, gegenereerde uitset van modelle van hierdie tipe meer geneig is om te wees aap voorbeelde uit hul opleidingsdata as om werklik volle begrip te demonstreer van die onderliggende fisiese beperkings wat in die werklike wêreld werk.
Die koerant sê*:
'[Hierdie] modelle kan maklik bevooroordeeld word deur "misleidende" voorbeelde uit die opleidingstel, wat daartoe lei dat hulle onder sekere omstandighede op 'n "gevalgebaseerde" wyse veralgemeen. Hierdie verskynsel ook waargeneem in groot taalmodelle, beskryf 'n model se neiging om soortgelyke opleidingsgevalle te verwys wanneer nuwe take opgelos word.
'Beskou byvoorbeeld 'n videomodel wat opgelei is op data van 'n hoëspoedbal wat in eenvormige lineêre beweging beweeg. As datavergroting uitgevoer word deur die video's horisontaal om te draai, en sodoende omgekeerde rigting-beweging bekend te stel, kan die model 'n scenario genereer waar 'n laespoedbal rigting omkeer na die aanvanklike rame, al is hierdie gedrag nie fisies korrek nie.'
Ons sal die koerant - getiteld - van nader bekyk Evaluering van wêreldmodelle met LLM vir besluitneming – binnekort. Maar eers, kom ons kyk na die agtergrond vir hierdie oënskynlike beperkings.
Herinnering van die dinge wat verby is
Sonder veralgemening, 'n opgeleide KI-model is min meer as 'n duur sigblad van verwysings na afdelings van sy opleidingsdata: vind die toepaslike soekterm, en jy kan 'n voorbeeld van daardie data opsom.
In daardie scenario tree die model effektief op as 'n 'neurale soekenjin', aangesien dit nie abstrakte of 'kreatiewe' interpretasies van die verlangde uitset kan produseer nie, maar eerder herhaal 'n paar klein variasies van data wat dit tydens die opleidingsproses gesien het.
Dit staan bekend as memorisering – ’n kontroversiële probleem wat ontstaan omdat werklik rekbare en interpreterende KI-modelle geneig is om detail te kort, terwyl werklik gedetailleerde modelle geneig is om oorspronklikheid en buigsaamheid te kort.
Die kapasiteit vir modelle wat deur memorisering geraak word om opleidingsdata te reproduseer is 'n potensiële wetlike struikelblok, in gevalle waar die model se skeppers nie onbeswaarde regte gehad het om daardie data te gebruik nie; en waar voordele uit daardie data gedemonstreer kan word deur 'n groeiende aantal onttrekking metodes.
As gevolg van memorisering, kan spore van nie-gemagtigde data volhard, ketting, deur veelvuldige opleidingstelsels, soos 'n onuitwisbare en onbedoelde watermerk – selfs in projekte waar die masjienleerpraktisyn sorg gedra het om te verseker dat 'veilige' data gebruik word.
Wêreld modelle
Die sentrale gebruikskwessie met memorisering is egter dat dit geneig is om die oor te dra illusie van intelligensie, of stel voor dat die KI-model algemene fundamentele wette of domeine het, waar dit in werklikheid die hoë volume gememoriseerde data is wat hierdie illusie verskaf (dws die model het soveel potensiële data-voorbeelde om van te kies dat dit moeilik is vir 'n mens om te sê of dit aangeleerde inhoud oplaai en of dit 'n werklik geabstraheerde begrip het van die konsepte wat by die generasie betrokke is).
Hierdie kwessie het gevolge vir die groeiende belangstelling in wêreldmodelle – die vooruitsig van hoogs diverse en duur opgeleide KI-stelsels wat veelvuldige bekende wette insluit, en ryklik verkenbaar is.
Wêreldmodelle is van besondere belang in die generatiewe beeld- en videoruimte. In 2023 het RunwayML begin met 'n navorsingsinisiatief na die ontwikkeling en uitvoerbaarheid van sulke modelle; DeepMind onlangs gehuur een van die skeppers van die bekroonde Sora generatiewe video om aan 'n model van hierdie soort te werk; en startups soos Higgsfield belê aansienlik in wêreldmodelle vir beeld- en videosintese.
Harde kombinasies
Een van die beloftes van nuwe ontwikkelings in generatiewe video-KI-stelsels is die vooruitsig dat hulle fundamentele fisiese wette, soos beweging, menslike kinematika (soos bv. loop eienskappe), vloeistofdinamika, en ander bekende fisiese verskynsels wat ten minste visueel aan mense bekend is.
As generatiewe KI hierdie mylpaal kon bereik, kan dit in staat wees om hiper-realistiese visuele effekte te produseer wat ontploffings, vloede en geloofwaardige botsingsgebeure oor verskeie soorte voorwerpe uitbeeld.
As, aan die ander kant, die KI-stelsel bloot opgelei is op duisende (of honderde duisende) video's wat sulke gebeurtenisse uitbeeld, kan dit in staat wees om die opleidingsdata redelik oortuigend weer te gee wanneer dit opgelei is op 'n soortgelyke data wys na die gebruiker se teikennavraag; nog misluk as die navraag te veel konsepte kombineer wat, in so 'n kombinasie, glad nie in die data verteenwoordig word nie.
Verder sou hierdie beperkings nie onmiddellik sigbaar wees nie, totdat 'n mens die stelsel met uitdagende kombinasies van hierdie soort gestoot het.
Dit beteken dat 'n nuwe generatiewe stelsel moontlik virale video-inhoud kan genereer wat, hoewel dit indrukwekkend is, 'n wanindruk van die stelsel se vermoëns en diepte van begrip kan skep, omdat die taak wat dit verteenwoordig nie 'n werklike uitdaging vir die stelsel is nie.
Byvoorbeeld, 'n relatief algemene en goed verspreide gebeurtenis, soos ''n gebou word gesloop', kan teenwoordig wees in verskeie video's in 'n datastel wat gebruik word om 'n model op te lei wat veronderstel is om 'n mate van begrip van fisika te hê. Daarom kan die model hierdie konsep vermoedelik goed veralgemeen, en selfs werklik nuwe uitset lewer binne die parameters wat uit oorvloedige video's geleer is.
Dit is 'n in-verspreiding byvoorbeeld, waar die datastel baie nuttige voorbeelde bevat waaruit die KI-stelsel kan leer.
As 'n mens egter 'n meer bisarre of spoggerige voorbeeld sou aanvra, soos 'Die Eiffeltoring word opgeblaas deur uitheemse indringers', sal die model vereis word om diverse domeine soos 'metallurgiese eienskappe', 'kenmerke van ontploffings', 'swaartekrag', 'windweerstand' - en 'uitheemse ruimtetuie' te kombineer.
Dit is 'n buite verspreiding (OOD)-voorbeeld, wat soveel verstrengelde konsepte kombineer dat die stelsel waarskynlik óf sal misluk om 'n oortuigende voorbeeld te genereer, óf sal verstek na die naaste semantiese voorbeeld waarop dit opgelei is – selfs al hou daardie voorbeeld nie by die gebruiker se opdrag nie.
Behalwe dat die model se brondatastel Hollywood-styl CGI-gebaseerde VFX bevat wat dieselfde of 'n soortgelyke gebeurtenis uitbeeld, sou so 'n uitbeelding absoluut vereis dat dit 'n goed-algemene en buigbare begrip van fisiese wette verkry.
Fisiese beperkings
Die nuwe artikel – 'n samewerking tussen Bytedance, Tsinghua Universiteit en Technion – stel nie net voor dat modelle soos Sora dit doen nie. nie internaliseer werklik deterministiese fisiese wette op hierdie manier, maar dat die opskaling van die data ('n algemene benadering oor die afgelope 18 maande) blykbaar in die meeste gevalle geen werklike verbetering in hierdie verband teweegbring nie.
Die referaat ondersoek nie net die grense van ekstrapolasie van spesifieke fisiese wette nie – soos die gedrag van voorwerpe wat in beweging is wanneer hulle bots, of wanneer hul pad belemmer word – maar ook 'n model se vermoë om kombinatoriese veralgemening – gevalle waar die voorstellings van twee verskillende fisiese beginsels saamgevoeg word in 'n enkele generatiewe uitset.
'n Video-opsomming van die nuwe vraestel. Bron: https://x.com/bingyikang/status/1853635009611219019
Die drie fisiese wette wat deur die navorsers vir studie gekies is, was paraboliese beweging; eenvormige lineêre bewegingEn perfek elastiese botsing.
Soos in die video hierbo gesien kan word, dui die bevindinge daarop dat modelle soos Sora nie werklik fisiese wette internaliseer nie, maar geneig is om opleidingsdata weer te gee.
Verder het die skrywers gevind dat fasette soos kleur en vorm so verstrengel raak tydens afleidingstyd dat 'n gegenereerde bal waarskynlik in 'n vierkant sal verander, blykbaar omdat 'n soortgelyke beweging in 'n datastelvoorbeeld 'n vierkant en nie 'n bal bevat nie (sien voorbeeld in video hierbo ingebed).
Die koerant, wat het veral verloof die navorsingsektor op sosiale media, kom tot die gevolgtrekking:
'Ons studie dui daarop dat skaal alleen onvoldoende is vir videogenerasiemodelle om fundamentele fisiese wette te ontbloot, ondanks die rol daarvan in Sora se breër sukses ...
'...[Bevindinge] dui daarop dat skaal alleen nie die OOD-probleem kan aanspreek nie, alhoewel dit prestasie in ander scenario's verbeter.
'Ons in-diepte analise dui daarop dat videomodel veralgemening meer staatmaak op die verwysing na soortgelyke opleidingsvoorbeelde eerder as om universele reëls te leer. Ons het 'n prioritiseringsvolgorde van kleur > grootte > snelheid > vorm in hierdie "gevalgebaseerde" gedrag waargeneem.
"[Ons] studie dui daarop dat naïewe skaal onvoldoende is vir videogenerasiemodelle om fundamentele fisiese wette te ontdek."
Gevra of die navorsingspan 'n oplossing vir die kwessie gevind het, een van die koerant se skrywers kommentaar:
'Ongelukkig het ons nie. Eintlik is dit waarskynlik die missie van die hele KI-gemeenskap.'
Metode en data
Die navorsers het a Variasionele outo-enkodeerder (VAE) en Dit argitekture om videomonsters te genereer. In hierdie opstelling, die saamgeperste latente voorstellings vervaardig deur die VAE werk in tandem met DiT se modellering van die verwerplik proses.
Video's is opgelei oor die Stable Diffusion V1.5-VAE. Die skema is fundamenteel onveranderd gelaat, met slegs argitektoniese verbeterings aan die einde van die proses:
'[Ons behou] die meerderheid van die oorspronklike 2D-konvolusie, groepnormalisering en aandagmeganismes op die ruimtelike dimensies.
'Om hierdie struktuur in 'n ruimtelike-temporele outo-enkodeerder op te blaas, omskep ons die laaste paar 2D-afsteekproefblokke van die enkodeerder en die aanvanklike paar 2D-opsteekproefblokke van die dekodeerder in 3D-blokke, en gebruik veelvuldige ekstra 1D-lae om tydelike modellering te verbeter. '
Om videomodellering moontlik te maak, is die gewysigde VAE gesamentlik opgelei met HQ-beeld- en videodata, met die 2D Generative Adversarial Network (GAN)-komponent inheems aan die SD1.5-argitektuur wat vir 3D aangevul is.
Die beelddatastel wat gebruik is, was Stable Diffusion se oorspronklike bron, LAION-Estetika, met filtering, bykomend tot DataComp. Vir videodata is 'n subset saamgestel uit die Vimeo-90K, Panda-70m en HDVG datastelle.
Die data is opgelei vir een miljoen stappe, met ewekansige gewas veranderde grootte en ewekansige horisontale flip toegepas as datavergroting prosesse.
Blaai uit
Soos hierbo genoem, is die ewekansige horisontale flip-datavergroting proses kan 'n aanspreeklikheid wees in die opleiding van 'n stelsel wat ontwerp is om outentieke beweging te produseer. Dit is omdat uitset van die opgeleide model kan oorweeg beide rigtings van 'n voorwerp, en veroorsaak ewekansige terugskrywings as dit probeer om hierdie teenstrydige data te onderhandel (sien ingebedde video hierbo).
Aan die ander kant, as 'n mens horisontaal draai draai af, is die model dan meer geneig om uitset te produseer wat voldoen aan net een rigting uit die opleidingsdata geleer.
Daar is dus geen maklike oplossing vir die probleem nie, behalwe dat die stelsel werklik die geheel van bewegingsmoontlikhede van beide die inheemse en omgekeerde weergawe assimileer - 'n fasiliteit wat kinders maklik ontwikkel, maar wat blykbaar meer 'n uitdaging is vir KI-modelle .
Toetse
Vir die eerste stel eksperimente het die navorsers 'n 2D-simulator geformuleer om video's van voorwerpbeweging en botsings te produseer wat ooreenstem met die wette van klassieke meganika, wat 'n hoë volume en beheerde datastel verskaf het wat die onduidelikheid van werklike video's uitsluit, vir die evaluering van die modelle. Die Boks2D fisika-speletjie-enjin is gebruik om hierdie video's te skep.
Die drie fundamentele scenario's wat hierbo gelys is, was die fokus van die toetse: eenvormige lineêre beweging, perfek elastiese botsings en paraboliese beweging.
Datastelle van toenemende grootte (wat wissel van 30,000 XNUMX tot drie miljoen video's) is gebruik om modelle van verskillende grootte en kompleksiteit (DiT-S tot DiT-L) op te lei, met die eerste drie rame van elke video wat vir kondisionering gebruik is.

Besonderhede van die verskillende modelle wat in die eerste stel eksperimente opgelei is. Bron: https://arxiv.org/pdf/2411.02385
Die navorsers het bevind dat die in-verspreiding (ID) resultate goed geskaal het met toenemende hoeveelhede data, terwyl die OOD generasies nie verbeter het nie, wat tekortkominge in veralgemening aandui.

Uitslae vir die eerste rondte toetse.
Die skrywers merk op:
'Hierdie bevindinge dui op die onvermoë van skaal om in OOD-scenario's te redeneer.'
Vervolgens het die navorsers stelsels getoets en opgelei wat ontwerp is om 'n vaardigheid vir kombinatoriese veralgemening te toon, waarin twee kontrasterende bewegings gekombineer word om (hopelik) 'n samehangende beweging te produseer wat getrou is aan die fisiese wet agter elk van die afsonderlike bewegings.
Vir hierdie fase van die toetse het die skrywers die PHYRE simulator, wat 'n 2D-omgewing skep wat veelvuldige en uiteenlopend gevormde voorwerpe in vrye val uitbeeld, wat met mekaar bots in 'n verskeidenheid komplekse interaksies.
Evalueringsmaatstawwe vir hierdie tweede toets was Fréchet Video Afstand (FVD); Strukturele Eendersindeks (SSIM); Piek sein-tot-geraas-verhouding (PSNR); Aangeleerde Perseptuele Ooreenkomstigheidsmetrieke (LPIPS); en 'n menslike studie (aangedui as 'abnormaal' in resultate).
Drie skale van opleidingsdatastelle is geskep, teen 100,000 0.6 video's, 3 miljoen video's en 6-XNUMX miljoen video's. DiT-B en DiT-XL modelle is gebruik, as gevolg van die verhoogde kompleksiteit van die video's, met die eerste raam wat vir kondisionering gebruik is.
Die modelle is opgelei vir een miljoen stappe teen 256×256 resolusie, met 32 rame per video.

Uitslae vir die tweede rondte toetse.
Die uitkoms van hierdie toets dui daarop dat bloot die verhoging van datavolume 'n onvoldoende benadering is:
Die artikel sê:
'Hierdie resultate dui daarop dat beide modelkapasiteit en dekking van die kombinasieruimte deurslaggewend is vir kombinatoriese veralgemening. Hierdie insig impliseer dat skaalwette vir videogenerering moet fokus op die verhoging van kombinasiediversiteit, eerder as om bloot datavolume op te skaal.'
Laastens het die navorsers verdere toetse uitgevoer om te probeer vasstel of 'n video-generasie-modelle werklik fisiese wette kan assimileer, en of dit bloot opleidingsdata tydens afleidingstyd memoriseer en reproduseer.
Hier het hulle die konsep van 'gevalgebaseerde' veralgemening ondersoek, waar modelle geneig is om spesifieke opleidingsvoorbeelde na te boots wanneer nuwe situasies gekonfronteer word, sowel as voorbeelde van eenvormige beweging ondersoek - spesifiek hoe die bewegingsrigting in opleidingsdata die opgeleide model se voorspellings beïnvloed .
Twee stelle opleidingsdata, vir eenvormige beweging en botsing, is saamgestel, wat elk bestaan uit eenvormige bewegingsvideo's wat snelhede tussen 2.5 tot 4 eenhede uitbeeld, met die eerste drie rame wat as kondisionering gebruik is. Latente waardes soos snelheid is uitgelaat, en na opleiding is toetsing op beide gesiene en ongesiene scenario's uitgevoer.
Hieronder sien ons resultate vir die toets vir eenvormige beweginggenerering:

Resultate vir toetse vir eenvormige beweginggenerering, waar die 'snelheid' veranderlike uitgelaat word tydens opleiding.
Die skrywers sê:
'[Met] 'n groot gaping in die oefenstel, is die model geneig om video's te genereer waar die snelheid óf hoog óf laag is om soos oefendata te lyk wanneer aanvanklike rame middelafstandsnelhede toon.'
Vir die botsingstoetse is baie meer veranderlikes betrokke, en die model word vereis om 'n tweedimensionele te leer nie-lineêre funksie.

Botsing: resultate vir die derde en laaste rondte van toetse.
Die skrywers neem waar dat die teenwoordigheid van 'misleidende' voorbeelde, soos omgekeerde beweging (dws 'n bal wat van 'n oppervlak bons en sy koers omkeer), die model kan mislei en veroorsaak dat dit fisies verkeerde voorspellings genereer.
Gevolgtrekking
As 'n nie-KI algoritme (dws 'n 'gebakte', prosedurele metode) bevat wiskundige reëls vir die gedrag van fisiese verskynsels soos vloeistowwe, of voorwerpe onder swaartekrag, of onder druk, is daar 'n stel onveranderlike konstantes beskikbaar vir akkurate weergawe.
Die bevindinge van die nuwe artikel dui egter daarop dat geen so 'n ekwivalente verwantskap of intrinsieke begrip van klassieke fisiese wette ontwikkel word tydens die opleiding van generatiewe modelle nie, en dat toenemende hoeveelhede data nie die probleem oplos nie, maar eerder verbloem – omdat 'n groter aantal opleidingsvideo's is beskikbaar vir die stelsel om op afleidingstyd na te boots.
* My omskakeling van die skrywers se inlyn-aanhalings na hiperskakels.
Eerste gepubliseer Dinsdag, 26 November 2024