Anslut dig till vÄrt nÀtverk!

Artificiell intelligens

Kan AI-vÀrldsmodeller verkligen förstÄ fysiska lagar?

mm

publicerade

 on

Bild producerad av ChatGPT-4o, som visar olika föremÄl som uppvisar avvikande fysiska egenskaper. Uppmaningen utvecklades konversationsmÀssigt

Det stora hoppet för AI-modeller med visionsprÄk Àr att de en dag kommer att bli kapabla till större autonomi och mÄngsidighet, och införliva principer för fysiska lagar pÄ ungefÀr samma sÀtt som vi utvecklar en medfödd förstÄelse för dessa principer genom tidig erfarenhet.

Till exempel tenderar barns bollspel att utvecklas förstÄelse för rörelsekinetik, och av effekten av vikt och ytstruktur pÄ banan. PÄ samma sÀtt kommer interaktioner med vanliga scenarier som bad, utspillda drycker, havet, simbassÀnger och andra olika flytande kroppar att ingjuta i oss en mÄngsidig och skalbar förstÄelse av hur vÀtska beter sig under gravitationen.

Även postulaten av mindre vanliga fenomen – som förbrĂ€nning, explosioner och arkitektonisk viktfördelning under tryck – absorberas omedvetet genom exponering för TV-program och filmer eller videor pĂ„ sociala medier.

NÀr vi studerar Principerna bakom dessa system, pÄ en akademisk nivÄ, "renoverar" vi bara vÄra intuitiva (men oinformerade) mentala modeller av dem.

Masters of One

För nÀrvarande Àr de flesta AI-modeller dÀremot mer "specialiserade", och mÄnga av dem Àr det heller finstÀmd eller trÀnade frÄn grunden pÄ bild- eller videodatauppsÀttningar som Àr ganska specifika för vissa anvÀndningsfall, snarare Àn utformade för att utveckla en sÄdan allmÀn förstÄelse av gÀllande lagar.

Andra kan presentera utseende av en förstÄelse av fysiska lagar; men de kanske faktiskt reproducerar prover frÄn deras trÀningsdata, snarare Àn att verkligen förstÄ grunderna i omrÄden som rörelsefysik pÄ ett sÀtt som kan producera verkligt nya (och vetenskapligt rimliga) skildringar frÄn anvÀndarnas uppmaningar.

I detta kÀnsliga ögonblick i produktiseringen och kommersialiseringen av generativa AI-system överlÄts det Ät oss, och till investerarnas granskning, att skilja den skapade marknadsföringen av nya AI-modeller frÄn verkligheten av deras begrÀnsningar.

En av novembers mest intressanta tidningar, ledd av Bytedance Research, tog sig an denna frÄga och utforskade klyftan mellan den skenbara och verkliga förmÄgan hos "all-purpose" generativa modeller som t.ex. sora.

Arbetet drog slutsatsen att vid den nuvarande teknikens stÄndpunkt Àr det mer sannolikt att genererad produktion frÄn modeller av denna typ Àr det ta exempel frÄn deras trÀningsdata Àn att faktiskt visa full förstÄelse för de underliggande fysiska begrÀnsningarna som verkar i den verkliga vÀrlden.

Tidningen sÀger*:

"[Dessa] modeller kan lÀtt vara partiska av "bedrÀgliga" exempel frÄn trÀningsuppsÀttningen, vilket leder till att de generaliserar pÄ ett "fallsbaserat" sÀtt under vissa förhÄllanden. Detta fenomen ocksÄ observerad i stora sprÄkmodeller, beskriver en modells tendens att referera till liknande utbildningsfall nÀr man löser nya uppgifter.

"TÀnk till exempel pÄ en videomodell som trÀnas pÄ data frÄn en höghastighetsboll som rör sig i enhetlig linjÀr rörelse. Om dataförstÀrkning utförs genom att vÀnda videorna horisontellt, och dÀrigenom introducera rörelse i omvÀnd riktning, kan modellen generera ett scenario dÀr en lÄghastighetsboll Àndrar riktning efter de första bilderna, Àven om detta beteende inte Àr fysiskt korrekt.'

Vi ska ta en nĂ€rmare titt pĂ„ tidningen – med titeln UtvĂ€rdera vĂ€rldsmodeller med LLM för beslutsfattande  â€“ inom kort. Men lĂ„t oss först titta pĂ„ bakgrunden till dessa uppenbara begrĂ€nsningar.

PÄminnelse om saker tidigare

Utan generalisering, Àr en utbildad AI-modell inte mycket mer Àn ett dyrt kalkylblad med referenser till delar av dess trÀningsdata: hitta den lÀmpliga söktermen sÄ kan du sammankalla en instans av denna data.

I det scenariot fungerar modellen effektivt som en "neural sökmotor", eftersom den inte kan producera abstrakta eller "kreativa" tolkningar av den önskade produktionen, utan istÀllet replikerar nÄgra mindre variationer av data som den sÄg under utbildningsprocessen.

Detta kallas memorering – Ett kontroversiellt problem som uppstĂ„r eftersom verkligt formbara och tolkande AI-modeller tenderar att sakna detaljer, medan verkligt detaljerade modeller tenderar att sakna originalitet och flexibilitet.

Möjligheten för modeller som pÄverkas av memorering att reproducera trÀningsdata Àr ett potentiellt juridiskt hinder, i de fall dÀr modellens skapare inte hade obehindrade rÀttigheter att anvÀnda dessa data; och dÀr fördelarna med dessa uppgifter kan pÄvisas genom ett vÀxande antal extraktionsmetoder.

PĂ„ grund av memorering kan spĂ„r av icke-auktoriserad data ihĂ€rdiga, kedjade, genom flera utbildningssystem, som en outplĂ„nlig och oavsiktlig vattenstĂ€mpel – Ă€ven i projekt dĂ€r maskininlĂ€rningsutövaren har sett till att "sĂ€kra" data anvĂ€nds.

VĂ€rldsmodeller

Den centrala anvÀndningsfrÄgan med memorering Àr dock att den tenderar att förmedla illusion av intelligens, eller föreslÄ att AI-modellen har generaliserade grundlÀggande lagar eller domÀner, dÀr det faktiskt Àr den höga volymen memorerad data som ger denna illusion (dvs modellen har sÄ mÄnga potentiella dataexempel att vÀlja mellan att det Àr svÄrt för en mÀnniska för att berÀtta om det Àr uppstötande lÀrt innehÄll eller om det har en verkligt abstrakt förstÄelse av begreppen som Àr involverade i generationen).

Denna frĂ„ga har konsekvenser för det vĂ€xande intresset för vĂ€rldsmodeller – utsikterna till mycket olika och dyrt utbildade AI-system som innehĂ„ller flera kĂ€nda lagar och som Ă€r rikt att utforska.

VÀrldsmodeller Àr av sÀrskilt intresse i det generativa bild- och videoutrymmet. 2023 började RunwayML en forskningsinitiativ in i utvecklingen och genomförbarheten av sÄdana modeller; DeepMind nyligen anlitade en av upphovsmÀnnen till den hyllade Sora generativa videon för att arbeta pÄ en modell av detta slag; och startups som Higgsfield investerar kraftigt i vÀrldsmodeller för bild- och videosyntes.

HÄrda kombinationer

Ett av löftena om nya utvecklingar inom generativa video-AI-system Àr möjligheten att de kan lÀra sig grundlÀggande fysiska lagar, sÄsom rörelse, mÀnsklig kinematik (som t.ex. gÄngegenskaper), vÀtskedynamik, och andra kÀnda fysiska fenomen som Ätminstone Àr visuellt bekanta för mÀnniskor.

Om generativ AI kunde uppnÄ denna milstolpe skulle den kunna producera hyperrealistiska visuella effekter som skildrar explosioner, översvÀmningar och troliga kollisionshÀndelser över flera typer av objekt.

Om Ä andra sidan AI-systemet helt enkelt har trÀnats pÄ tusentals (eller hundratusentals) videor som visar sÄdana hÀndelser, skulle det kunna Äterge trÀningsdata ganska övertygande nÀr det trÀnades pÄ en liknande data pekar pÄ anvÀndarens mÄlfrÄga; Ànnu misslyckas om frÄgan kombinerar för mÄnga begrepp som, i en sÄdan kombination, inte alls representeras i datan.

Vidare skulle dessa begrÀnsningar inte vara omedelbart uppenbara, förrÀn man pressade systemet med utmanande kombinationer av detta slag.

Detta innebÀr att ett nytt generativt system kan vara kapabelt att generera viralt videoinnehÄll som, Àven om det Àr imponerande, kan skapa ett felaktigt intryck av systemets kapacitet och djup av förstÄelse, eftersom uppgiften det representerar inte Àr en verklig utmaning för systemet.

Till exempel en relativt vanlig och vÀl spridd hÀndelse, som t.ex "en byggnad Àr riven", kan vara nÀrvarande i flera videor i en datauppsÀttning som anvÀnds för att trÀna en modell som ska ha viss förstÄelse för fysik. DÀrför kan modellen antagligen generalisera detta koncept vÀl och till och med producera genuint ny produktion inom de parametrar som lÀrts av mÄnga videor.

Fall challenge Àr en i distribution exempel, dÀr datasetet innehÄller mÄnga anvÀndbara exempel för AI-systemet att lÀra av.

Men om man skulle begĂ€ra ett mer bisarrt eller konstigt exempel, som t.ex "Eiffeltornet sprĂ€ngs av utomjordiska inkrĂ€ktare", skulle modellen krĂ€vas för att kombinera olika domĂ€ner som "metallurgiska egenskaper", "explosioners egenskaper", "gravitation", "vindmotstĂ„nd" – och "utomjordiska rymdfarkoster".

Fall challenge Ă€r en utanför distribution (OOD)-exempel, som kombinerar sĂ„ mĂ„nga intrasslade begrepp att systemet sannolikt antingen misslyckas med att generera ett övertygande exempel, eller kommer att gĂ„ som standard till nĂ€rmaste semantiska exempel som det trĂ€nades pĂ„ – Ă€ven om det exemplet inte följer anvĂ€ndarens uppmaning.

Förutom att modellens kÀlldatauppsÀttning innehöll Hollywood-stil CGI-baserad VFX som visar samma eller en liknande hÀndelse, skulle en sÄdan skildring absolut krÀva att den uppnÄr en vÀlgeneraliserad och smidig förstÄelse av fysiska lagar.

Fysiska begrÀnsningar

Den nya tidningen – ett samarbete mellan Bytedance, Tsinghua University och Technion – antyder inte bara att modeller som Sora gör det inte verkligen internalisera deterministiska fysiska lagar pĂ„ detta sĂ€tt, men att skala upp data (ett vanligt tillvĂ€gagĂ„ngssĂ€tt under de senaste 18 mĂ„naderna) verkar i de flesta fall inte ge nĂ„gon verklig förbĂ€ttring i detta avseende.

Uppsatsen utforskar inte bara grĂ€nserna för extrapolering av specifika fysiska lagar – sĂ„som beteendet hos föremĂ„l i rörelse nĂ€r de kolliderar eller nĂ€r deras vĂ€g Ă€r blockerad – utan ocksĂ„ en modells förmĂ„ga att kombinatorisk generalisering – fall dĂ€r representationerna av tvĂ„ olika fysiska principer slĂ„s samman till en enda generativ utdata.

En videosammanfattning av den nya tidningen. KĂ€lla: https://x.com/bingyikang/status/1853635009611219019

De tre fysiska lagar som valts ut för studier av forskarna var parabolisk rörelse; enhetlig linjÀr rörelse; Och perfekt elastisk kollision.

Som man kan se i videon ovan tyder resultaten pÄ att modeller som Sora inte riktigt internaliserar fysiska lagar, utan tenderar att reproducera trÀningsdata.

Vidare fann författarna att fasetter som fÀrg och form blir sÄ intrasslade vid slutledningstidpunkten att en genererad boll sannolikt skulle förvandlas till en kvadrat, uppenbarligen eftersom en liknande rörelse i ett datasetexempel innehöll en kvadrat och inte en boll (se exempel i videon) inbÀddad ovan).

Tidningen, som har sÀrskilt engagerad forskningssektorn pÄ sociala medier, avslutar:

"VÄr studie tyder pÄ att skalning ensam Àr otillrÀcklig för videogenereringsmodeller för att avslöja grundlÀggande fysiska lagar, trots dess roll i Soras bredare framgÄng ...

"...[Fynd] indikerar att skalning ensam inte kan lösa OOD-problemet, Àven om det förbÀttrar prestandan i andra scenarier.

"VÄr djupgÄende analys tyder pÄ att generalisering av videomodeller mer bygger pÄ att hÀnvisa till liknande trÀningsexempel snarare Àn att lÀra sig universella regler. Vi observerade en prioriteringsordning av fÀrg > storlek > hastighet > form i detta "fallsbaserade" beteende.

"[VÄr] studie tyder pÄ att naiv skalning Àr otillrÀcklig för videogenereringsmodeller för att upptÀcka grundlÀggande fysiska lagar."

TillfrÄgad om forskargruppen hade hittat en lösning pÄ frÄgan, en av tidningens författare kommenterade:

'TyvÀrr har vi inte gjort det. Egentligen Àr detta förmodligen hela AI-gemenskapens uppdrag.'

Metod och data

Forskarna anvÀnde en Varierande autokodare (VAE) och dit arkitekturer för att generera videoprover. I denna instÀllning, den komprimerade latenta representationer producerat av VAE arbete i tandem med DiT:s modellering av förnekande processen.

Videor trÀnades över Stable Diffusion V1.5-VAE. Schemat lÀmnades i princip oförÀndrat, med endast arkitektoniska förbÀttringar i slutet av processen:

"[Vi behÄller] majoriteten av den ursprungliga 2D-faltningen, gruppnormaliseringen och uppmÀrksamhetsmekanismerna pÄ de rumsliga dimensionerna.

'För att blÄsa upp den hÀr strukturen till en rumslig-temporal automatisk kodare, konverterar vi de sista 2D-downsample-blocken i kodaren och de första 2D-upsample-blocken i dekodern till 3D-block, och anvÀnder flera extra 1D-lager för att förbÀttra tidsmodelleringen. '

För att möjliggöra videomodellering trÀnades den modifierade VAE tillsammans med HQ-bild- och videodata, med 2D Generative Adversarial Network (GAN)-komponenten inbyggd i SD1.5-arkitekturen utökad för 3D.

Bilddataset som anvÀndes var Stable Diffusions ursprungliga kÀlla, LAION-Estetik, med filtrering, förutom DataComp. För videodata kurerades en delmÀngd frÄn Vimeo-90K, Panda-70m och HDVG datauppsÀttningar.

Data trÀnades för en miljon steg, med slumpmÀssig beskÀrning och slumpmÀssig horisontell vÀndning tillÀmpad som dataförstÀrkning processer.

FĂ„ frispel

Som nÀmnts ovan, den slumpmÀssiga horisontella flip-dataförstÀrkningen process kan vara en skuld vid trÀning av ett system utformat för att producera autentisk rörelse. Detta beror pÄ att utdata frÄn den trÀnade modellen kan övervÀga bÄda riktningar för ett objekt, och orsaka slumpmÀssiga vÀndningar nÀr det försöker förhandla om dessa motstridiga data (se inbÀddad video ovan).

Å andra sidan, om man vĂ€nder horisontell vĂ€ndning sĂ€nkt, Ă€r det mer sannolikt att modellen producerar utdata som följer bara en riktning lĂ€rt sig av trĂ€ningsdata.

SĂ„ det finns ingen enkel lösning pĂ„ problemet, förutom att systemet verkligen assimilerar alla rörelsemöjligheter frĂ„n bĂ„de den ursprungliga och vĂ€nda versionen – en anlĂ€ggning som barn utvecklar lĂ€tt, men som tydligen Ă€r mer av en utmaning för AI-modeller .

Tester

För den första uppsÀttningen experiment formulerade forskarna en 2D-simulator för att producera videor av objektrörelser och kollisioner som överensstÀmmer med den klassiska mekanikens lagar, som tillhandahöll en hög volym och kontrollerad datauppsÀttning som uteslöt tvetydigheterna i verkliga videor, för utvÀrdering av modellerna. De Box2D fysikspelmotor anvÀndes för att skapa dessa videor.

De tre grundlÀggande scenarierna som anges ovan var i fokus för testerna: enhetlig linjÀr rörelse, perfekt elastiska kollisioner och parabolisk rörelse.

DatauppsÀttningar av ökande storlek (frÄn 30,000 XNUMX till tre miljoner videor) anvÀndes för att trÀna modeller av olika storlek och komplexitet (DiT-S till DiT-L), med de tre första bildrutorna i varje video som anvÀndes för konditionering.

Detaljer om de olika modellerna som trÀnades i den första uppsÀttningen experiment. KÀlla: https://arxiv.org/pdf/2411.02385

Detaljer om de olika modellerna som trÀnades i den första uppsÀttningen experiment. KÀlla: https://arxiv.org/pdf/2411.02385

Forskarna fann att resultaten inom distribution (ID) skalade bra med ökande mÀngder data, medan OOD-generationerna inte förbÀttrades, vilket tyder pÄ brister i generaliseringen.

Resultat för första testomgÄngen.

Resultat för första testomgÄngen.

Författarna noterar:

"Dessa fynd tyder pÄ oförmÄgan hos skalning att utföra resonemang i OOD-scenarier."

DÀrefter testade og trÀnade forskarna system utformade för att uppvisa en skicklighet för kombinatorisk generalisering, dÀr tvÄ kontrasterande rörelser kombineras för att (förhoppningsvis) producera en sammanhÀngande rörelse som Àr trogen den fysiska lagen bakom var och en av de separata rörelserna.

För denna fas av testerna anvÀnde författarna PHYRE simulator, som skapar en 2D-miljö som skildrar flera och olika formade objekt i fritt fall, som kolliderar med varandra i en mÀngd komplexa interaktioner.

UtvÀrderingsmÄtt för detta andra test var Fréchet Video Distance (FVD); Strukturellt likhetsindex (SSIM); Högsta signal-till-brus-förhÄllande (PSNR); LÀrde Perceptuella likhetsmÄtt (LPIPS); och en mÀnsklig studie (betecknad som "onormal" i resultat).

Tre skalor med trÀningsdatauppsÀttningar skapades, med 100,000 0.6 videor, 3 miljoner videor och 6-XNUMX miljoner videor. DiT-B- och DiT-XL-modeller anvÀndes, pÄ grund av videornas ökade komplexitet, med den första bildrutan som anvÀndes för konditionering.

Modellerna trĂ€nades för en miljon steg i 256×256 upplösning, med 32 bilder per video.

Resultat för andra testomgÄngen.

Resultat för andra testomgÄngen.

Resultatet av detta test tyder pÄ att enbart ökad datavolym Àr ett otillrÀckligt tillvÀgagÄngssÀtt:

I uppsatsen anges:

"Dessa resultat tyder pÄ att bÄde modellkapacitet och tÀckning av kombinationsutrymmet Àr avgörande för kombinatorisk generalisering. Denna insikt innebÀr att skalningslagar för videogenerering bör fokusera pÄ att öka kombinationsdiversiteten, snarare Àn att bara skala upp datavolymen.'

Slutligen genomförde forskarna ytterligare tester för att försöka avgöra om en videogenereringsmodell verkligen kan assimilera fysiska lagar, eller om den helt enkelt memorerar och reproducerar trÀningsdata vid slutledningstidpunkten.

HĂ€r undersökte de begreppet "fallsbaserad" generalisering, dĂ€r modeller tenderar att efterlikna specifika trĂ€ningsexempel nĂ€r de konfronteras med nya situationer, sĂ„vĂ€l som att undersöka exempel pĂ„ enhetlig rörelse – specifikt hur rörelseriktningen i trĂ€ningsdata pĂ„verkar den trĂ€nade modellens förutsĂ€gelser .

TvÄ uppsÀttningar trÀningsdata, för enhetlig rörelse och kollision, kurerades, var och en bestÄende av enhetliga rörliga videor som visar hastigheter mellan 2.5 till 4 enheter, med de tre första bildrutorna som konditionering. Latenta vÀrden som t.ex hastighet utelÀmnades, och efter trÀning utfördes tester pÄ bÄde sedda och osynliga scenarier.

Nedan ser vi resultat för testet för generering av enhetlig rörelse:

Resultat för tester för generering av enhetlig rörelse, dÀr variabeln 'hastighet' utelÀmnas under trÀning.

Resultat för tester för generering av enhetlig rörelse, dÀr variabeln 'hastighet' utelÀmnas under trÀning.

Författarna sÀger:

"[Med] en stor lucka i trÀningsuppsÀttningen tenderar modellen att generera videor dÀr hastigheten Àr antingen hög eller lÄg för att likna trÀningsdata nÀr initiala bildrutor visar medelintervallhastigheter."

För kollisionstesterna Àr mycket fler variabler inblandade, och modellen krÀvs för att lÀra sig en tvÄdimensionell icke-linjÀr funktion.

Kollision: resultat för den tredje och sista testomgÄngen.

Kollision: resultat för den tredje och sista testomgÄngen.

Författarna observerar att förekomsten av "bedrÀgliga" exempel, sÄsom omvÀnd rörelse (dvs en boll som studsar frÄn en yta och vÀnder sin kurs), kan vilseleda modellen och fÄ den att generera fysiskt felaktiga förutsÀgelser.

Slutsats

Om en icke-AI-algoritm (dvs. en "bakad", procedurmetod) innehÄller matematiska regler för beteendet hos fysiska fenomen som vÀtskor, eller föremÄl under gravitation eller under tryck, finns en uppsÀttning oförÀnderliga konstanter tillgÀngliga för exakt Ätergivning.

Den nya artikelns resultat indikerar dock att inget sĂ„dant likvĂ€rdigt samband eller inneboende förstĂ„else av klassiska fysiska lagar utvecklas under trĂ€ningen av generativa modeller, och att ökande mĂ€ngder data inte löser problemet, utan snarare döljer det – eftersom ett större antal trĂ€ningsvideor finns tillgĂ€ngliga för systemet att imitera vid slutledningstidpunkten.

 

* Min konvertering av författarnas inline-citat till hyperlÀnkar.

Första gÄngen publicerad tisdagen den 26 november 2024

Skribent pÄ maskininlÀrning, domÀnspecialist pÄ mÀnsklig bildsyntes. Tidigare chef för forskningsinnehÄll pÄ Metaphysic.ai.
Personlig sida: martinanderson.ai
Kontakt: [e-postskyddad]
Twitter: @manders_ai