Andersonin kulma

Tekoäly on merkittävästi heikompi kuin ihmiset kalusteiden kokoamisessa

Julkaistu 25. toukokuuta 2026

Päivitetty 27. toukokuuta 2026

Tekijä

Martin Anderson

AI-generated image (GPT-2): An industrial humanoid robot sits on the floor of a sparsely furnished apartment beside a grotesquely malformed piece of self-assembled furniture, holding a screwdriver while studying the collapsed structure amid IKEA boxes, scattered components, and assembly instructions.

ChatGPT ja Google Gemini eivät voi luotettavasti ymmärtää IKEA-kalusteiden kokoamisvideoita, ja monet muut merkittävät tekoälyjärjestelmät sekoittavat osia, eivät huomaa yhteyksiä ja käyttävät vain vähän itse videoita ymmärtääkseen, mitä tapahtuu.

Ihmisten vaikeuksien kulttuurinen ilmiö, joka liittyy IKEA-tyyppisten litteiden pakkausten kalusteiden kokoamiseen, on houkutteleva kohde tietokoneen näön tutkimukselle – ei vähiten siksi, että pitkät toimintojen sarjat, objektin seuraaminen ja spatiaalinen päättely, jotka ovat osana tätä, tulevat todennäköisesti työntämään robotti-järjestelmiä hyvin pitkälle yksinkertaistettujen muotojen ja kontrolloiduista ympäristöistä, joihin ne on tottunut.

Tekoälyvoimaiset robotti-kokoamisohjelmat litteille pakkausmuodoille ovatkin tulleet pieneksi, mutta kunnioitettavaksi haaraksi kirjallisuudessa, ja esimerkkejä tällaisista ovat USC:n vuoden 2019 IKEA-kalusteiden kokoamisympäristö, yksi ensimmäisistä benchmark-tietokannoista ja tutkimusympäristöistä, joka on suunniteltu nimenomaan kalusteiden kokoamista varten:

Klikkaa toistamaan Esimerkkejä robotti-kokoamisharjoituksista, projekti-sivuilta vuoden 2019 IKEA-kalusteiden kokoamisympäristö aloitteesta. Lähde

Vuonna 2024 Stanford/J.P. Morgan -yhteistyö IKEA-käyttöohjeet työssä oli ensimmäinen, joka tutki merkittävästi tekoälyn kykyä suorittaa tämä näennäisesti arkainen (vaikka usein ärsyttävä) prosessi, perustuen uuteen tietokantaan ohjeista ja käyttäen ohjevideoita:

Tietokannan menetelmä ja yksityiskohdat vuoden 2024 IKEA-käyttöohjeet työssä -aloitteesta. Lähde

Vuoden 2024 tutkimuksen tekijät – jotka hyödynsivät DGCNN:ia, CNOS:ia, SAM-6D:ia, MegaPose:a, MiDaS:ia, SAM2 Hiera-L:ia, Cutie-base:ia ja GPT-4o:ia – tulivat siihen tulokseen, että tehtävä aiheutti ‘merkittäviä haasteita ohjeistuvan kokoamisvideoiden ymmärtämisessä, mukaan lukien osien segmentointi ja asennot, korkean tason kokoamissuunnitelmien rakentaminen ja avainkokoamisaskelten havaitseminen videoissa’.

Wax On, Wax Off

On selvää, että saada tekoäly automaatioon tehtävään, jota harva arvostaa, olisi mukava, mutta se ei ole tieteellinen polttopiste tai korkea prioriteetti tietokoneen näön tutkimussektorilla.

Tämän tehtävän arvo on siinä, että mitä tekoälyjärjestelmien on opittava tullakseen taitavaksi tässä, se perustaa ne paljon vakavammille rutiineille, jotka ovat yhtä haasteellisia tai jopa haasteellisempia, maataloudessa, teollisuudessa, palvelusektorilla ja monilla muilla alueilla.

Tässä suhteessa LEGO-Puzzles -projekti ja tietokanta tutkii, miten hyvin visuaalis-verbaaliset mallit (VLM) hallitsevat monivaiheista spatiaalista päättelyä useiden arkkitehtuurien yli, koska kokoamistehtävät riippuvat ei vain siitä, että oikeat objektit paritetaan oikeaan hetkeen – prosessi, jota kutsutaan mating:iksi – vaan myös siitä, että seurataan ohjeita, jotka voivat olla abstrakteja kuin raaka visuaalinen kuva, joka on mallille saatavilla kussakin vaiheessa:

Haastavia kysymyksiä LEGO-Puzzles -projektista. Lähde

Viimeisin projekti, joka ottaa haasteen kalusteiden kokoamisesta, hyödyntää nykyistä ja kykympää tekoälymallien joukkoa, mukaan lukien Google Gemini 2.5/3.1 ja OpenAI:n GPT-5 – mutta se ei saavuta voittoa tekoälylle tehtävässä, ainoastaan kohtalaisia parannuksia perusluokan sattumaan nähden, ja suorituskyky on “pahasti alle ihmisten tasolla”.

Tekijät toteavat:

‘Kokeemme osoittavat, että viimeisimmät VLM:t kamppailevat merkittävästi hienojakoisella spatiaalis-aikaisella päättelyllä, korostaa heidän rajoituksiaan käyttää tehokkaasti aikaisia tietoja videoista, rajatulla jäljityskyvylle ja ymmärtämiselle fyysisistä vuorovaikutuksista kuten fyysistä kosketusta.’

Ongelmat, joita tutkitaan tässä tutkimuksen haarassa, liittyvät vain nimellisesti käytännön robottiikkaan tällä vaiheessa, vaikka lisää haasteita varmasti odottaa, kun teoreettiset ongelmat lopulta kehittyvät ruumiillistuneeksi tekoälyksi.

Uusi tutkimus artikkeli on nimeltään Flat-Pack Bench: Evaluating Spatio-Temporal Understanding in Large Vision-Language Models through Furniture Assembly, ja se tulee kahdeksalta tekijältä Cornellin yliopistosta, Cornell Techistä, MBZUAI:sta ja UC Berkeley:stä. Tutkimukseen liittyy projektisivu.

Menetelmä

Uuden tutkimuksen tekijät korostavat vaikeutta, jota tekoälyavustajat kokevat kokoamisprosessin ymmärtämisessä havainnon kautta, esimerkiksi YouTube-tyyppisen ohjevideon kautta, johon monet ihmiset turvautuvat hyödyntääkseen yhteisön tietoa:

Jotkut kysymykset, jotka litteän pakkausmuodon kokoamistehtävä herättää, sekä neljä olennaista taitoa, joita tarvitaan haasteiden voittamiseen. Lähde

He kokosivat tietokannan, joka on suodatettu aiemmin mainitusta IKEA-käyttöohjeet työssä (IMaW) tietokannasta, joka sisältää luonnollisia videoita ihmisistä, jotka kokoavat IKEA-kalusteita. Uudelleenmuodostettu benchmark leikkaa alkuperäiset videot pois teksti-korttien poistamiseksi, ja erilliset avainkehyksen ja täydellisen videon variantit on toimitettu, ja myös manuaalisesti annotoitu visuaalinen kehys osien segmentoinnilla, jotta voidaan tukea monivalintatutkimustehtäviä.

Benchmark keskittyy neljään kysymystyyppiin: MATE, joka määrittää, ovatko kaksi osaa yhdistetty lopullisessa kokoamisessa; TRACK, joka vaatii malleja palauttamaan oikean vastaavuuden sekoitetuille osa-IDs:ille jaotulla kehyksellä videon kautta; TOrd, joka arvioi, voivatko mallit johtaa oikean yhteyden järjestyksen; ja TLoc, joka testaa, voivatko mallit tunnistaa tapahtumia, jotka tapahtuvat välittömästi ennen tai jälkeen visuaalisen kehyksen näyttämää tilaa, vaatien aikaisen lokalisaation ja päättelyn lähellä olevista tapahtumista.

Esimerkkejä uudesta benchmarkista, jotka havainnollistavat neljää keskeistä tehtävää, jotka on suunniteltu testaamaan spatiaalista päättelyä kalusteiden kokoamisvideoissa: Aikainen lokalisaatio; Aikainen järjestys; Jäljitys; ja Mating. Jokainen tehtävä yhdistää kokoamisvideota sekä yhden tai useamman segmentoitua visuaalista kehystä ja monivalintakysymyksen.

Mallit, jotka on esitetty yllä olevassa skeemakuvassa, on johdettu näistä neljästä kysymystyyppistä.

Tekijät huomauttavat myös, että he lisäsivät hienojakoiset osa-kokoamisannotaatiot kunkin alkuperäisen IMaW-videon osalle, määrittäen, mitkä osat liittyvät mihinkin toisiin osiin – yksityiskohtia, joita alkuperäisessä kokoelmassa ei ollut.

Kiertäminen

Kysymykset, tutkimus toteaa, piti koota manuaalisesti, koska itsegeneroivat kysymykset antavat tekoälylle mahdollisuuden ohittaa videon ja viitata omiin koulutettuihin ymmärtämiin – skenaario, jota jokainen säännöllinen VLM-käyttäjä todennäköisesti tunnistaa, koska optimointi ja muut outot yhtiön prioriteetit usein saavat eturintamajärjestelmät ohittamaan lähettämän tiedon, kuten PDF-tiedostot tai kuvat, ja turvautumaan omiin ymmärtämiinsä:

‘[Me] löysimme, että itsegenerointi tuotti usein kysymyksiä, jotka voitiin vastata ohittamalla videon ja hyödyntämällä oikoreittejä. Esimerkiksi itsegeneroivat mating -kysymykset osista, jotka olivat jo valmiina yhdistettäviksi, tai sisälsivät häiritseviä vaihtoehtoja, joissa oli selvästi erottuvia muotoja tai värejä, mikä mahdollisti helpon [poiston]. Ratkaisemaan tämän, kootimme kaikki kysymykset manuaalisesti kiinteiden mallien avulla.

‘Annotaattoreille annettiin koko kokoamisvideo, segmentoitu kehyksellä visuaalinen kehys, kysymysmallit ja yksityiskohtaiset ohjeet välttämiseksi oikoreittejä, jotka perustuvat visuaalisen kehyksen staattisiin vihjeisiin.’

Valmis benchmark koostuu 602 monivalintakysymyksestä 50:stä vaihtelevasta kalusteiden kokoamisvideosta.

Tiedot ja Testit

Malleja, jotka arvioitiin testikierroksella, olivat mainittu ChatGPT ja Gemini -versiot, sekä Video-LLaVA; LLaVA-NeXT-Vid; LLaVA-OneVision; LLaVA-Video; Qwen 2.5/Qwen 3-VL; InternVL3; ArrowRL; PerceptionLM; ja Video-Refer.

GenS käytettiin valitsemaan kysymyksiin liittyviä kehyksiä pitkissä videoissa perus-Gemini 2.5 Pro -mallille, ja useimmat mallit testattiin yksittäisessä kontekstissa ahneen dekoodauksen alla (jota GPT-5 ei tue).

Kolme kehysmuotoa keksittiin benchmarkille: sekamuotoinen kehys toimitti visuaalisen kehyksen erillisenä kuvana rinnakkain kokoamisvideon kanssa; collage -kehys upotti visuaalisen kehyksen jokaiseen videokehykseen osana ruutuasettelua; ja concat -kehys liitti visuaaliset kehykset videon alkuun.

Molemmat leikattuja ja avainkehyksellisiä videoita testattiin näiden muotojen yli, jotta voitiin mitata, miten voimakkaasti kehysrakenteen ja aikaisen pakkaamisen vaikutus mallin suorituskykyyn.

Sattuman perusteella lasketut kynnykset, jotka otettiin testien vertailukohteeksi, sisälsivät myös “taajuussattuman”, jossa valittiin useimmin esiintyvä vaihtoehto (eikä todella satunnaista vaihtoehtoa).

Human Factor

Ihmisen suorituskyky arvioitiin osallistujilla, jotka valittiin tietojenkäsittelyohjelmista, aina perustutkinto- ja tohtoritutkintoihin asti. Jokainen osallistuja näki kokoamisvideon, visuaalisen kehyksen ja monivalintakysymyksen sekä tehtävän ohjeen, ennen kuin valitsi vastauksen.

Kolme vastausta kerättiin kunkin kysymyksen kohdalla ja ratkaistiin enemmistöäänestyksellä, ja erillinen joukkoistutkimus tehtiin satunnaisesti valitusta benchmarkin alajoukosta.

Tarkkuus käytettiin koehenkilöiden kokeiden mittarina:

Sattuman perusteella lasketut kynnykset
Malli	Rank	Micro Avg.	TOrd	TLoc	Track	Mate
Ihmisen suorituskyky	–	94.18	93.54	93.20	93.77	97.70
Sattuman perusteella	–	26.41	25.00	25.00	25.49	33.33
Taajuussattuma	–	26.74	27.74	30.10	26.46	36.78
Omistajien mallit
GPT-5	1	37.71	40.65	53.40	25.68	49.43
Gemini 2.5 Pro	2	33.72	40.65	44.66	23.35	39.08
Gemini 3.1 Pro	3	32.89	34.84	43.69	21.79	49.43
Gemini 2.5 Flash	4	31.06	31.61	41.75	23.35	40.23
Gemini 2.5 Pro + GenS	5	25.58	33.55	32.04	13.23	40.23
Avoin malli
Video-LLaVA-7B	26	23.75	21.29	35.92	10.89	51.72
InternVL3-14B	5	37.71	42.58	21.36	37.74	48.28
InternVL3-38B	12	36.05	42.58	37.86	25.68	52.87
InternVL3-78B	1	41.03	43.87	39.81	42.02	34.48
Qwen2.5-VL-7B	22	30.23	27.10	18.45	33.07	41.38
Qwen2.5-VL-32B	13	35.88	34.84	29.13	33.07	54.02
Qwen2.5-VL-72B	2	40.37	41.29	30.10	45.14	36.78
Qwen3-VL-4B	11	36.54	34.19	33.01	32.68	56.32
Qwen3-VL-4B-Think	9	37.21	31.61	25.24	37.74	59.77
Qwen3-VL-8B	15	33.72	36.13	30.10	33.85	33.33
Qwen3-VL-8B-Think	17	31.73	34.19	33.01	25.29	44.83
Qwen3-VL-32B	6	37.71	38.71	46.60	31.91	42.53
Qwen3-VL-32B-Think	3	40.03	38.71	22.33	45.53	47.13
Qwen3-VL-30B-A3B	10	36.71	30.32	22.33	42.02	49.43
Qwen3-VL-235B-A22B	8	37.21	37.42	25.24	39.69	43.68
LLaVA-NeXT-Vid-7B	25	25.08	33.55	24.27	16.73	35.63
LLaVA-NeXT-Vid-34B	21	30.40	30.32	24.27	32.68	31.03
LlaVA-OneVision-7B	16	32.89	26.45	30.10	34.24	43.68
LlaVA-OneVision-72B	4	38.37	35.48	25.24	38.91	57.47
LLaVA-Video-7B	19	30.73	30.97	24.27	25.68	52.87
LLaVA-Video-72B	7	37.54	36.77	27.18	35.80	56.32
Perception-LM-1B	24	27.74	28.39	26.21	25.29	35.63
Perception-LM-3B	18	31.40	28.39	32.04	29.96	40.23
Perception-LM-8B	14	35.38	26.45	26.21	44.75	34.48
VideoRefer	23	28.57	32.90	30.10	17.51	51.72
ArrowRL-7B	20	30.56	30.97	24.27	29.18	41.38

FLAT-PACK BENCH -tutkimuksen tulokset, joissa vertaillaan omistajien ja avoimia multimodaalisia malleja aikaisen järjestyksen, aikaisen lokalisaation, jäljityksen ja parinmuodostuksen tehtävissä, ja ihmisen suorituskyky säilyy edelleen kaikkien testattujen järjestelmien edellä, vaikka suurimmat eturintamajärjestelmät saavuttavat kohtalaisia parannuksia.

Nähdään alkuperäisistä kokeista (kuva yllä), ihmiset saavuttivat yli 90 %:n kaikissa kysymyksissä, 80 %:n yksimielisyydellä, mikä osoittaa, tutkimus väittää, että väitteet ovat hyvin muotoiltuja ja epäselviä.

GPT-5 ja Gemini 2.5/3.1 Pro kamppailivat tietokannassa, saavuttaen vain kohtalaisia parannuksia sattuman perusteella laskettuihin kynnyksiin nähden, ja säilyivät edelleen selvästi alle ihmisten suorituskyvyn.

Avoinna olevien järjestelmien vahvimmat tulokset tulivat InternVL3- ja Qwen-perheistä, vaikka suorituskyky vaihteli terävästi kategoriassa; ja erikoistuneet järjestelmät, kuten PerceptionLM ja VideoRefer, kamppailivat myös benchmarkin monimutkaisissa kokoamistehtävissä, ja ihmisten osallistujat säilyivät edelleen merkittävästi jokaisessa malliluokassa.

Tutkijat testasivat myös kaksi ketjuajattelun strategioita tutkimuksen standardi-ohjelmointiasetuksia vastaan. Zero-shot Chain-of-Thought -ohjelmointi pyysi malleja selittämään vastauksensa askel askeleelta, kun taas Self-consistency with Chain-of-Thought generoi viisi ehdokasvastauksia ennen lopullisen vastauksen valintaa enemmistöäänestyksellä. Kuitenkaan kumpikaan näistä ei parantanut tuloksia FLAT-PACK BENCH -tutkimuksessa, ja molemmat lähestyvät saivat tulokset, jotka olivat alempia kuin benchmarkin oletusarvoinen ohjelmointiasetus.

Vilppi

Tutkijat loivat kuvan vain version benchmarkista, joka poisti videon kokonaan, säilyttäen ainoastaan kysymystekstin ja visuaalisen kehyksen.

Ihmisten suorituskyky romahti yli 50 %:lla näissä olosuhteissa, osoittaen, että tehtävät edellyttivät todella aikaista ymmärtämistä kokoamisprosessista. Mallit, kuitenkin, heikkenivät paljon vähemmän vakavasti, ja joissakin tehtävissä heidän suorituskykynsä säilyi tai jopa parani ilman videoinputia.

Tämä osoittaa, tutkimus ehdottaa, että monet VLM:t eivät käytännössä hyödyntäneet aikaisia tietoja videoista lainkaan, vaan turvautuivat kuvaan perustuviin oikoreitteihin ja yleiseen tietoon *:

VLM:n suorituskyky kuvan vain versiossa FLAT-PACK BENCH -tutkimuksesta, verrattuna standardiin video- ja kuva-asetteluun, sekä lisätulokset osa-IDs:n sekoittamisen jälkeen testatakseen, hyödyntävätkö mallit oikoreittejä, jotka perustuvat label-tilaukseen, sen sijaan, että ne käyttäisivät aikaista videon ymmärtämistä.

‘[Kuva yllä] osoittaa VLM:n suorituskyvyn tässä kuvan vain versiossa, ja muutoksen sen suorituskyvyssä verrattuna täyden arviointiin, sekä ihmisten suorituskyvyn.

‘Terävä lasku ihmisten suorituskyvyssä (>50%) osoittaa, että kysymykset edellyttävät videoita vastaamiseksi.

‘Havaitsemme myös, että mallin kokonaisuorituskyky laskee jyrkästi (8.80%), mutta pääasiassa TRACK-alitehtävän vuoksi. Tarkkuus muissa tehtävissä säilyy samana tai paranee, osoittaen, että VLM ei käytä videoita tehokkaasti, kun taas ihmiset käyttävät videoita vastaamiseen.’

Tutkimuksen syvempi analyysi osoittaa, että pääasiallinen este ei ole yksinkertaisesti aikainen järjestys, vaan epäonnistuminen objektin perustamisessa ja spatiaalis-aikaisessa päättelyssä: mallit usein kamppailivat seuraamalla visuaalisesti samankaltaisia kalustenosia liikkeen, kameran siirtymisen ja näkymän muutosten aikana, vaikka ne näyttivät tunnistavan laajemman kokoamisprosessin oikein.

Lisäkokeet sisälsivät työkalulla varustetun agenteerin asettamisen tehtävään, ja se “suoritti huonosti” tutkijoiden mukaan – vaikka se kykeni vastaamaan oikein 11,48 %:iin lisää kysymyksiin, joita muut lähestymistavat eivät onnistuneet.

Johtopäätös

Sisäistäminen pysyvästi käsitteitä ja objekteja on keskeistä sekä ihmisen kasvun ja havainnon kehityksen kannalta että yksilöllisille, usein uusille tehtäville, joihin se kehitys on valmistanut meidät.

Tietokoneen näön tutkimuksella on jo olemassa jatkuva taistelu uudelleen hankkia ja tunnistaa objekteja ja ihmisiä, jotka poistuvat ja palaavat ruutuun. Nämä ongelmat ovat merkittävästi suurempia, kun on tarve jatkuvasti muuttaa näkemystä ja asentoa – kuten todennäköisesti tapahtuu YouTube-ohjevideossa litteän pakkausmuodon kalusteiden kokoamisesta. Voit kuvitella, miten järkyttävät POV-muutokset egosentrisestä videosta voivat vielä enemmän hämmentää tekoälyn kalusteiden kokoamisyrityksiä.

* Tutkijoiden alkuperäinen muotoilu, jota on muutettu tarpeen mukaan säilyttääkseen vaikutuksen lainausmuotoilun alla / Ensimmäinen julkaisu maanantaina 25. toukokuuta 2026. Muutettu keskiviikkona 27. toukokuuta 2026 oikaistaakseen tämän päivämäärän määrittämistä (!).