Tekoäly
Voivatko AI-maailmanmallit todella ymmärtää fysikaalisia lakeja?

Suuri toive visio-kieli-AI-malleista on, että ne tulevat jonain päivänä kykeneviksi suurempaan autonomiaan ja monipuolisuuteen, sisällyttäen fysikaalisten lakien periaatteita samalla tavalla, kuin kehitymme luonnollisen ymmärryksen näistä periaatteista varhaisen kokemuksen kautta.
Esimerkiksi lasten pallopelit kehittävät ymmärryksen liikkeen kinetiikasta ja painon ja pinnan koostumuksen vaikutuksesta radalle. Samoin yhteys yleisiin tilanteisiin, kuten kylpyyn, kaatuneisiin juomiin, mereen, uimahuoneisiin ja muihin moninaisiin nestemäisiin kohdistuu meissä monipuolisen ja skaalautuvan ymmärryksen siitä, miten neste käyttäytyy painovoiman alaisena.
Jopa vähemmän yleisten ilmiöiden oletukset – kuten palamisesta, räjähdyksistä ja arkkitehtonisesta painon jakautumisesta paineen alaisena – imevät meidät tietoisesti TV-ohjelmista ja elokuvista tai sosiaalisen median videoista.
Kun opiskelemme järjestelmien taustalla olevia periaatteita akateemisella tasolla, me vain “retrofit” intuitiivisia (vaikka tietämättömiä) miellyttäviä malleja niistä.
Mestarit yhdessä
Nykyään useimmat AI-mallit ovat vastakohtana erikoistuneempia, ja monet niistä on hienosäädetty tai koulutettu alusta alkaen kuva- tai videodataksi, jotka ovat melko spesifejä tiettyihin käyttötarkoituksiin, eikä suunniteltu kehittämään yleistä ymmärrystä hallitsevista laeista.
Toiset voivat esittää ymmärryksen olemassaolon fysikaalisista laeista; mutta ne voivat tosiasiassa toistaa otoksia koulutusdatastaan, eikä todella ymmärrä liikkeen fysiikan perusteita tavalla, joka voisi tuottaa todella uusia (ja tieteellisesti uskottavia) kuvauskohtauksia käyttäjien ohjelmien mukaan.
Tässä herkkässä vaiheessa generatiivisen AI-järjestelmien tuotteistamisessa ja kaupallistamisessa on meidän ja sijoittajien tarkastelun varassa erottaa uusien AI-mallien taitava markkinointi niiden rajoitusten todellisuudesta.
Yksi marraskuun mielenkiintoisimmista tutkimuksista, jota johti Bytedance Research, käsittelee tätä ongelmaa, tutkien kuilua “kaikenkattavien” generatiivisten mallien näennäisten ja todellisten kykyjen välillä, kuten Sora.
Työ totesi, että nykyisessä tilassa taiteen huipulla generoitu output tällaisista malleista on todennäköisemmin jäljittelevä esimerkkejä koulutusdatastaan kuin todella osoittava täydellistä ymmärrystä perustuvista fysikaalisista rajoituksista, jotka toimivat todellisessa maailmassa.












