stuacach An bhfuil DALL-E 2 Just a 'Gluing Things Le Chéile' Gan Tuiscint ar a gCaidrimh? - Aontú.AI
Ceangail le linn

Faisnéise Saorga

An bhfuil DALL-E 2 Just a 'Gluing Things Le Chéile' Gan Tuiscint ar a gCaidrimh?

mm
Nuashonraithe on
‘Cupán ar spúnóg’. Foinse: DALL-E 2 .

Tugtar le fios i bpáipéar taighde nua ó Ollscoil Harvard go bhfuil deacracht shuntasach ag creat ceannlíne grabála téacs-go-íomhá OpenAI DALL-E 2 caidreamh fiú naíonán a atáirgeadh idir na heilimintí a chomhdhéanann sé i ngrianghraif sintéise, in ainneoin sofaisticiúlacht iontach cuid mhaith de. a aschur.

Rinne na taighdeoirí staidéar úsáideora ina raibh 169 rannpháirtí sluafhoinsithe, ar bronnadh íomhánna DALL-E 2 orthu bunaithe ar na prionsabail dhaonna is bunúsaí de shéimeantaic an chaidrimh, mar aon leis na leideanna téacs a chruthaigh iad. Nuair a fiafraíodh díobh an raibh baint idir na leideanna agus na híomhánna, measadh go raibh níos lú ná 22% d’íomhánna bainteach leis na leideanna a bhain leo, i dtéarmaí na gcaidrimh an-simplí a iarradh ar DALL-E 2 a shamhlú.

Scáileán-grab ó na trialacha a rinneadh don pháipéar nua. Cuireadh de chúram ar na rannpháirtithe na híomhánna go léir a mheaitseáil leis an leid a roghnú. In ainneoin an séanadh ag bun an chomhéadain, i ngach cás, i ndáiríre bhí na híomhánna, i ngan fhios do na rannpháirtithe, ginte ón leid gaolmhar a taispeánadh. Foinse: https://arxiv.org/pdf/2208.00005.pdf

Scáileán-grab ó na trialacha a rinneadh don pháipéar nua. Cuireadh de chúram ar na rannpháirtithe na híomhánna go léir a mheaitseáil leis an leid a roghnú. In ainneoin an séanadh ag bun an chomhéadain, i ngach cás, i ndáiríre bhí na híomhánna, i ngan fhios do na rannpháirtithe, ginte ón leid gaolmhar a taispeánadh. Foinse: https://arxiv.org/pdf/2208.00005.pdf

Tugann na torthaí le fios freisin go bhféadfadh laghdú a dhéanamh ar chumas dealraitheach DALL-E gnéithe éagsúla a chomhcheangal de réir mar a éiríonn níos lú seans ann gur tharla na heilimintí sin sna sonraí oiliúna sa saol fíor a chumhachtaíonn an córas.

Mar shampla, fuair íomhánna don leid ‘leanbh ag baint le babhla’ ráta comhaontaithe 87% (.i. chliceáil na rannpháirtithe ar fhormhór na n-íomhánna mar nithe a bhain leis an leid), ach baineadh amach léirithe fótaréalaíoch de ‘monkey touching an Iguana’ mar an gcéanna. comhaontú 11% amháin:

Bíonn DALL-E ag streachailt le heachtra neamhdhóchúil 'moncaí i dteagmháil le Iguana' a léiriú, d'fhéadfaí a áitiú toisc go bhfuil sé neamhchoitianta, is dóichí nach bhfuil sé ann, sa tacar oiliúna.

Bíonn DALL-E ag streachailt le heachtra neamhdhóchúil 'moncaí i dteagmháil le Iguana' a léiriú, d'fhéadfaí a áitiú toisc go bhfuil sé neamhchoitianta, is dóichí nach bhfuil sé ann, sa tacar oiliúna.

Sa dara sampla, is minic a fhaigheann DALL-E 2 an scála agus fiú an speiceas mícheart, is dócha mar gheall ar ganntanas íomhánna ón saol fíor a thaispeánann an ócáid ​​​​seo. I gcodarsnacht leis sin, tá sé réasúnta a bheith ag súil le líon ard grianghraf oiliúna a bhaineann le leanaí agus bia, agus go bhfuil an fo-fhearann/rang seo dea-fhorbartha.

Tugann an deacracht atá ag DALL-E maidir le híomhánna fiáine codarsnacha a chur le chéile le fios go bhfuil an pobal chomh doiléir faoi láthair ag cumais fhótarealaíoch agus leathan léirmhínithe an chórais nach bhfuil aon tsúil chriticiúil forbartha acu do chásanna ina bhfuil an córas i ndáiríre tar éis eilimint amháin a ghreamú go lom ar ghné eile. , mar atá sna samplaí seo ón suíomh oifigiúil DALL-E 2:

Sintéis gearrtha agus greamaigh, ó na samplaí oifigiúla do DALL-E 2. Foinse: https://openai.com/dall-e-2/

Sintéis gearrtha agus greamaigh, ó na samplaí oifigiúla do DALL-E 2 . Foinse: https://openai.com/dall-e-2/

Deir an páipéar nua*:

'Is comhpháirt bhunúsach d'éirim an duine í an tuiscint choibhneasta, rud a thagann chun solais go luath i bhforbairt, agus déantar é a ríomh go tapa agus go huathoibríoch sa dearcadh.

Deacracht 'DALL-E 2' le caidreamh bunúsach spásúil fiú (amhail in, on, faoi) molann sé, is cuma cad a d’fhoghlaim sé, nár fhoghlaim sé go fóill na cineálacha léiriúcháin a ligeann do dhaoine an domhan a struchtúrú ar bhealach chomh solúbtha agus chomh láidir sin.

'Léirmhíniú díreach ar an deacracht seo is ea nach bhfuil comhdhéanamh coibhneasta fós ag córais mar DALL-E 2.'

Tugann na húdair le fios go bhféadfadh córais giniúna íomhá treoraithe le téacs mar an tsraith DALL-E leas a bhaint as halgartaim luamhánaithe a bhaineann leis an róbataic, a mhúnlaíonn féiniúlachtaí agus caidreamh ag an am céanna, mar gheall ar an ngá atá leis an ngníomhaire idirghníomhú iarbhír leis an gcomhshaol seachas déantúsaíocht amháin. meascán d'eilimintí éagsúla.

Cur chuige amháin den sórt sin, dar teideal CLIPort, úsáideann mar an gcéanna Meicníocht CLIP a fheidhmíonn mar eilimint measúnaithe cáilíochta i DALL-E 2:

Úsáideann CLIPort, comhoibriú 2021 idir Ollscoil Washington agus NVIDIA, CLIP i gcomhthéacs atá chomh praiticiúil go gcaithfidh na córais a bhfuil oiliúint orthu air tuiscint a fhorbairt ar chaidrimh fhisiciúla, spreagadh nach bhfuil in DALL-E 2 agus 'iontach' dá samhail. creataí sintéise íomhá. Foinse: https://arxiv.org/pdf/2109.12098.pdf

Úsáideann CLIPort, comhoibriú 2021 idir Ollscoil Washington agus NVIDIA, CLIP i gcomhthéacs atá chomh praiticiúil go gcaithfidh na córais a bhfuil oiliúint orthu air tuiscint a fhorbairt ar chaidrimh fhisiciúla, spreagadh nach bhfuil in DALL-E 2 agus 'iontach' dá samhail. creataí sintéise íomhá. Foinse: https://arxiv.org/pdf/2109.12098.pdf

Molann na húdair freisin go bhféadfadh ‘uasghrádú sochreidte eile’ a bheith i gceist le hailtireacht na gcóras sintéise íomhá ar nós DALL-E a ionchorprú. éifeachtaí iolracha i sraith amháin den ríomh, lena gceadaítear gaolmhaireachtaí a ríomh ar bhealach atá spreagtha ag inniúlachtaí próiseála faisnéise bitheolaíochta córais.

An páipéar nua dar teideal Tuiscint Choibhneasta a Thástáil i nGiniúint Íomhánna Téacs-Treoraithe, agus tagann sé ó Colin Conwell agus Tomer D. Ullman ag Roinn na Síceolaíochta Harvard.

Taobh amuigh den Luath-Chritic

Ag trácht ar an 'sleight of hand' taobh thiar de réalachas agus sláine aschur DALL-E 2, tugann na húdair faoi deara saothair roimhe seo a d'aimsigh easnaimh i gcórais íomhá giniúna stíl DALL-E.

I Meitheamh na bliana seo, UoC Berkeley faoi ​​deara an deacracht a bhíonn ag DALL-E maidir le frithchaitheamh agus scáthanna a láimhseáil; an mhí chéanna, rinne staidéar ón gCóiré imscrúdú ar 'uathúlacht' agus úrnuacht aschur 2-stíl DALL-E le súil chriticiúil; a réamhanailís d'íomhánna DALL-E 2, go gairid tar éis iad a sheoladh, ó NYU agus Ollscoil Texas, fuair siad saincheisteanna éagsúla maidir le comhdhéanamh agus fachtóirí riachtanacha eile in íomhánna DALL-E 2; agus an mhí seo caite, comhobair idir Ollscoil Illinois agus MIT thairg moltaí maidir le feabhsuithe ailtireachta ar chórais dá leithéid i dtéarmaí comhdhéanamh.

Tugann na taighdeoirí faoi deara freisin go bhfuil luminaries DALL-E cosúil le Aditya Ramesh géilleadh saincheisteanna an chreata maidir le ceangailteach, méid coibhneasta, téacs, agus dúshláin eile.

Tá sé molta freisin ag na forbróirí taobh thiar de chóras sintéise íomhá rival Google Imagen TarraingBeinse, córas comparáide nua a thomhaiseann cruinneas íomhá trasna creataí le méadracht éagsúil.

Ina áit sin, tugann údair an pháipéir nua le fios go bhféadfaí toradh níos fearr a fháil trí mheastachán daonna – seachas méadracht algartamaíoch inmheánach – a chur in aghaidh na n-íomhánna a d’eascair as, le fáil amach cá bhfuil na laigí, agus cad a d’fhéadfaí a dhéanamh chun iad a mhaolú.

An staidéar

Chuige sin, bunaíonn an tionscadal nua a chur chuige ar phrionsabail shíceolaíocha, agus féachann sé le cúlú ón sruth borradh spéise in innealtóireacht pras (ar lamháltas é, i ndáiríre, d’easnaimh DALL-E 2, nó d’aon chóras inchomparáide), chun imscrúdú a dhéanamh agus d’fhéadfadh dul i ngleic leis na teorainneacha a fhágann gur gá na réitigh sin.

Deir an páipéar:

‘Díríonn an saothar reatha ar thacar de 15 bhunchaidreamh a ndearnadh cur síos orthu, a scrúdaíodh, nó a moladh sa litríocht chognaíoch, fhorbartha nó theangeolaíoch. Tá caidreamh spásúil bunaithe sa tacar (m.sh. 'X ar Y'), agus caidreamh gníomhaireach níos teibí (m.sh. 'X ag cabhrú le Y').

'Tá na leideanna simplí d'aon ghnó, gan castacht tréithe ná mionsaothrú. Is é sin, in ionad leid mar 'tá asal agus ochtapas ag imirt cluiche. Tá rópa á choinneáil ag an asal ar cheann amháin, tá an t-ochtapas ag gabháil leis an taobh eile. Coinníonn an t-asal an rópa ina bhéal. Tá cat ag léim thar an rópa’, úsáidimid ‘bosca ar scian’.

'Glacann an tsimplíocht raon leathan caidrimh fós ó fhofhearainn éagsúla na síceolaíochta daonna, agus déanann teipeanna samhlacha féideartha níos suntasaí agus níos sainiúla.'

Le haghaidh a gcuid staidéir, d’earcaigh na húdair 169 rannpháirtí ó Prolific, iad ar fad lonnaithe i SAM, le meánaois de 33, agus 59% baineann.

Taispeánadh 18 n-íomhá do na rannpháirtithe eagraithe i ngreille 3×6 leis an leid ag an mbarr, agus séanadh ag bun an leathanaigh ag rá go mb’fhéidir gur gineadh na híomhánna ar fad, cuid acu nó gan aon cheann, ón leid a taispeánadh, agus iarradh orthu ansin iad a roghnaigh na híomhánna a cheap siad a bhí gaolmhar ar an mbealach seo.

Bhí na híomhánna a cuireadh i láthair na ndaoine aonair bunaithe ar litríocht theangeolaíoch, fhorbartha agus chognaíoch, a chuimsigh sraith d’ocht gcaidreamh fisiceacha agus seacht gcaidreamh ‘gníomhaire’ (beidh sé seo soiléir i gceann nóiméad).

Caidreamh fisiceach
i, ar, faoi, ag clúdach, in aice, occluded ag, crochta os a chionn, agus ceangailte le.

Caidreamh Gníomhach
ag brú, ag tarraingt, ag baint, ag bualadh, ag ciceáil, ag cabhrú, agus bac.

Baineadh na caidrimh seo go léir as na réimsí staidéir neamh-CS a luadh roimhe seo.

Mar sin díorthaíodh dhá eintiteas déag le húsáid sna leideanna, le sé réad agus sé oibreán:

réada
bosca, sorcóir, blaincéad, babhla, cupán tae, agus scian.

Gníomhairí
fear, bean, leanbh, róbait, moncaí, agus iguana.

(Admhaíonn na taighdeoirí gur ‘cóir leighis’ a bhí san áireamh an iguana, nach príomhghné de thaighde tirim socheolaíochta nó síceolaíoch)

I gcás gach caidreamh, cruthaíodh cúig leid dhifriúla trí dhá eintiteas a shampláil go randamach cúig huaire, rud a d’fhág go raibh 75 leid iomlána, cuireadh gach ceann díobh faoi bhráid DALL-E 2, agus ar úsáideadh na 18 íomhá tosaigh a soláthraíodh do gach ceann acu, gan aon éagsúlachtaí. nó an dara seans ceadaithe.

Torthaí

Deir an páipéar*:

‘Ar an meán, thuairiscigh rannpháirtithe méid íseal comhaontaithe idir íomhánna DALL-E 2 agus na leideanna a úsáideadh chun iad a ghiniúint, le meán 22.2% [18.3, 26.6] thar na 75 leid ar leith.

'Ghin leideanna gníomhaireacha, le meán de 28.4% [22.8, 34.2] thar 35 leid, comhaontú níos airde ná leideanna fisiceacha, le meán 16.9% [11.9, 23.0] thar 40 leid.'

Torthaí ón staidéar. Léiríonn na pointí i ndubh na leideanna go léir, agus leid aonair gach pointe, agus briseann dath síos de réir cibé an raibh an leid ábhar gníomhaireach nó fisiceach (ie rud).

Torthaí ón staidéar. Léiríonn na pointí i ndubh na leideanna go léir, agus leid aonair gach pointe, agus briseann dath síos de réir cibé an raibh an leid ábhar gníomhaireach nó fisiceach (ie rud).

Chun comparáid a dhéanamh idir an dearcadh daonna agus algartamach ar na híomhánna, rith na taighdeoirí a gcuid rindreála trí fhoinse oscailte OpenAI ViT-L/14 Creat atá bunaithe ar CLIP. Ag meánú na scóir, fuair siad 'caidreamh measartha' idir an dá shraith torthaí, rud a d'fhéadfadh a bheith ina ábhar iontais, ag cur san áireamh a mhéid a chuidíonn CLIP féin leis na híomhánna a ghiniúint.

Torthaí na comparáide CLIP (ViT-L/14) le freagairtí daonna.

Torthaí na comparáide CLIP (ViT-L/14) le freagairtí daonna.

Tugann na taighdeoirí le fios go bhféadfadh meicníochtaí eile laistigh den ailtireacht, b’fhéidir in éineacht le tromchúis (nó easpa) sonraí sa tsraith oiliúna, cuntas a thabhairt ar an mbealach gur féidir le CLIP teorainneacha DALL-E a aithint gan a bheith in ann, i ngach cás, aon rud a dhéanamh. go leor faoin bhfadhb.

Baineann na húdair de thátal as nach bhfuil ach áis bharúlach ag DALL-E 2, más ann di, chun íomhánna a ionchorpraíonn tuiscint choibhneasta a atáirgeadh, gné bhunúsach den fhaisnéis dhaonna a fhorbraíonn ionainn go han-luath.

‘D’fhéadfadh an nóisean nach bhfuil comhdhéanamh DALL-E 2 comhdhéanaimh a bheith ina ábhar iontais d’aon duine a chonaic freagraí iontach réasúnta DALL-E 2 ar leideanna cosúil le ‘cartún de raidis daikon leanbh i tutu ag siúl poodle’. Is minic a ghineann leideanna mar seo comhfhogasú ciallmhar ar choincheap cumadóireachta, agus gach cuid de na leideanna i láthair, agus i láthair sna háiteanna cearta.

'Ní hé amháin atá sa chomhdhéanamh, áfach, ach an cumas rudaí a ghreamú le chéile – fiú rudaí nach bhfaca tú le chéile riamh cheana. Éilíonn cumadóireacht tuiscint ar an rialacha a nascann rudaí le chéile. Is rialacha dá leithéid iad caidrimh.'

Greamaíonn Fear T-Rex

Tuairim De réir mar a chuimsíonn OpenAI a líon níos mó úsáideoirí tar éis airgeadú béite DALL-E 2 le déanaí, agus ós rud é go gcaithfidh duine íoc as an chuid is mó de na glúine, d'fhéadfadh na heasnaimh i dtuiscint choibhneasta DALL-E 2 éirí níos soiléire toisc go bhfuil meáchan airgeadais ag gach iarracht 'theip' air, agus níl aisíocaíochtaí ar fáil.

Bhí am acu siúd againn a fuair cuireadh beagán níos luaithe (agus, go dtí le déanaí, níos mó fóillíochta chun imirt leis an gcóras) chun breathnú ar roinnt de na 'glitches caidrimh' is féidir le DALL-E 2 a astú.

Mar shampla, le haghaidh a Jurassic Park lucht leanúna, tá sé an-deacair dineasáir a fháil chun duine a chase i DALL-E 2, cé nach cosúil go bhfuil an coincheap 'chase' sa DALL-E 2 córas cinsireachta, agus cé go bhfuil an stair fhada Ba chóir go soláthródh scannáin dhineasáir go leor samplaí oiliúna (i bhfoirm leantóirí agus seatanna poiblíochta ar a laghad) don chruinniú speiceas seo nach féidir a dhéanamh murach sin.

Freagra tipiciúil DALL-E 2 ar an leide ‘Grianghraf daite de T-Rex ag ruaigeadh fear síos an bóthar’. Foinse: DALL-E 2

Freagra tipiciúil DALL-E 2 ar an leide ‘Grianghraf daite de T-Rex ag ruaigeadh fear síos an bóthar’. Foinse: DALL-E 2

Fuair ​​​​mé amach go bhfuil na híomhánna thuas tipiciúil le haghaidh athruithe ar an '[dineasár] ag tóraíocht [duine]' dearadh pras, agus nach féidir le haon mhéid mionsaothraithe sa leid a thabhairt don T-Rex cloí i ndáiríre. Sa chéad agus sa dara grianghraf, tá an fear (níos mó nó níos lú) sa tóir ar an T-Rex; sa tríú, ag druidim leis le neamhaird ócáideach ar shábháilteacht; agus san íomhá deiridh, de réir dealraimh jogging comhthreomhar leis an Beast mór. Thar timpeall 10-15 iarracht ar an téama seo, fuair mé amach go bhfuil an dineasáir ar an mbealach céanna 'distracted'.

D’fhéadfadh gurbh ionann na sonraí oiliúna amháin a d’fhéadfadh DALL-E 2 a rochtain 'fear ag troid le dineasáir', ó shots poiblíochta do scannáin níos sine mar Milliún Bliain RC (1966), agus sin Jeff Goldblum's eitilt cáiliúil ó rí na creachadóirí go simplí asluiteach sa tráinse beag sonraí.

 

* Mo thiontú ar luanna inlíne na n-údar go hipearnaisc.

Foilsíodh den chéad uair 4 Lúnasa 2022.