Mākslīgais intelekts

Kā zināt, kad attēlu sintēzes sistēmas ražo patiesi “oriģinālu” materiālu

Atjaunināts on Decembris 9, 2022

“Lācīši strādā pie jauniem mākslīgā intelekta pētījumiem zem ūdens ar 1990. gadu tehnoloģiju” — Avots: https://www.creativeboom.com/features/meet-dall-e/

Jauns Dienvidkorejas pētījums ir ierosinājis metodi, lai noteiktu, vai attēlu sintēzes sistēmas rada patiesi jaunus attēlus vai “nelielus” apmācības datu variantus, kas, iespējams, pārkāpj šādu arhitektūru mērķi (piemēram, jaunu un oriģinālu attēlu radīšana). .

Ļoti bieži raksts norāda, ka pēdējais ir patiess, jo esošie rādītāji, ko šādas sistēmas izmanto, lai apmācības laikā uzlabotu savas ģenerēšanas spējas, ir spiesti dot priekšroku attēliem, kas ir salīdzinoši tuvu (neviltus) avota attēliem datu kopā. .

Galu galā, ja ģenerētais attēls ir “vizuāli tuvs” avota datiem, tas neizbēgami iegūs labāku vērtējumu par “autentitāti” nekā “oriģinalitāti”, jo tas ir “uzticams”, ja tas nav iedvesmots.

Nozarē, kas ir pārāk topoša un nepārbaudīta, lai vēl būtu zināmas tās juridiskās sekas, tas varētu būt izrādās svarīgs juridisks jautājums, ja izrādās, ka komercializēts sintētisko attēlu saturs pietiekami neatšķiras no (bieži) ar autortiesībām aizsargātā avota materiāla, kas pašlaik ir atļauts perfūzēt pētniecības sektors populāru tīmeklī izkoptu datu kopu veidā (ir iespēja iesniegt turpmākas šāda veida prasības par pārkāpumiem izcēlušies diezgan nesen attiecībā uz Microsoft GitHub Co-Pilot AI).

Kas attiecas uz arvien saskaņotāku un semantiski stabilāku izvadi no tādām sistēmām kā OpenAI DALL-E2, Google Attēls, un Ķīnas CogView izlaidumi (kā arī zemāk norādītie Dall-e mini), tādu ir ļoti maz post fakts veidi, kā droši pārbaudīt ģenerētā attēla oriģinalitāti.

Patiešām, meklējot dažus populārākos jaunos DALL-E 2 attēlus, atkarībā no meklētājprogrammas bieži vien tiks parādīti tikai citi to pašu attēlu gadījumi.

Augšupielādējot pilnu 9 attēlu DALL-E 2 izvades grupu, tiek izveidots tikai vairāk DALL-E 2 izvades grupu. Atdalot un augšupielādējot pirmo attēlu (no šī 8. gada 2022. jūnija Twitter ieraksta, no konta “Weird Dall-E Generations”), Google pievēršas attēlā redzamajam basketbolam, izraisot uz attēlu balstīto meklēšanu pa semantisku aklo aleju. Šķiet, ka tai pašai uz attēliem balstītai meklēšanai Yandex veic faktisku uz pikseļiem balstītu dekonstrukciju un funkciju saskaņošanu.

Pilnas 9 attēlu DALL-E 2 izvades grupas augšupielāde rada tikai vairāk DALL-E 2 izvades grupu, jo režģa struktūra ir spēcīgākā iezīme. Pirmā attēla atdalīšana un augšupielāde (no šo Twitter ziņu 8. gada 2022. jūnijā no konta “Weird Dall-E Generations”), liek uzņēmumam Google koncentrēties uz attēlā redzamo basketbolu, izraisot uz attēliem balstīto meklēšanu pa semantisku aklo gatvi. Šķiet, ka tai pašai uz attēliem balstītai meklēšanai Yandex veic faktisku uz pikseļiem balstītu dekonstrukciju un funkciju saskaņošanu.

Lai gan Yandex, visticamāk, nekā Google meklēšana izmantos faktisko funkcijas (ti, attēls ir atvasināts/aprēķināts funkcijas, ne vienmēr cilvēku sejas vaibsti) un redzes iesniegtā attēla (nevis semantiskās) īpašības, lai atrastu līdzīgus attēlus, visām uz attēliem balstītajām meklētājprogrammām ir vai nu kāda veida darba kārtība vai prakse kas var apgrūtināt gadījumu identificēšanu avots> radīts plaģiāts, izmantojot meklēšanu tīmeklī.

Turklāt ģeneratīvā modeļa apmācības dati var nebūt publiski pieejami kopumā, tādējādi vēl vairāk kavējot ģenerēto attēlu oriģinalitātes tiesu ekspertīzi.

Interesanti, ka uz attēliem balstīta meklēšana tīmeklī vienā no sintētiskajiem attēliem, ko piedāvā Google. īpaša Imagen vietne neatrod pilnīgi neko, kas būtu salīdzināms ar attēla objektu, ņemot vērā attēla reālu skatīšanos un objektīvu līdzīgu attēlu meklēšanu. Drīzāk, semantiski fiksēti kā vienmēr, Google attēlu meklēšanas rezultāti šim attēla attēlam neļaus tikai uz attēlu balstītu attēla meklēšanu tīmeklī, nepievienojot meklēšanas vienumus “imagen google” kā papildu (un ierobežojošu) parametru:

Savukārt Yandex atrod daudz līdzīgu (vai vismaz vizuāli saistītu) reālās pasaules attēlu no amatieru mākslinieciskās kopienas:

Kopumā būtu labāk, ja attēlu sintēzes sistēmu izvades novitāti vai oriģinalitāti varētu kaut kādā veidā izmērīt, bez nepieciešamības iegūt iezīmes no katra iespējamā tīmekļa attēla, kas pieejams internetā modeļa apmācības laikā, vai nepubliskās datu kopās, kurās, iespējams, tiek izmantots ar autortiesībām aizsargāts materiāls.

Saistībā ar šo problēmu Korejas progresīvā zinātnes un tehnoloģiju institūta (KAIST AI) Kimas Džečula AI augstskolas pētnieki ir sadarbojušies ar globālo IKT un meklēšanas uzņēmumu NAVER Corp, lai izstrādātu Retuma rādītājs kas var palīdzēt identificēt oriģinālākus attēlu sintēzes sistēmu darbus.

Attēli šeit tiek ģenerēti, izmantojot StyleGAN-FFHQ. No kreisās puses uz labo kolonnas norāda no sliktākajiem līdz labākajiem rezultātiem. Mēs redzam, ka metrikai “Saīsināšanas triks” (skatiet tālāk) un reālisma metrikai ir sava darba kārtība, savukārt jaunajam rādītājam “Retums” (augšējā rinda) tiek meklēti saliedēti, bet oriģināli attēli (nevis tikai saskaņoti attēli). Tā kā šajā rakstā ir attēla lieluma ierobežojumi, lūdzu, skatiet avota dokumentu, lai iegūtu sīkāku informāciju un izšķirtspēju. Avots: https://arxiv.org/pdf/2206.08549.pdf

Jaunais papīrs tiek nosaukts Retuma rādītājs: jauns rādītājs, lai novērtētu sintezētu attēlu neparastumu, un nāk no trim KAIST pētniekiem un trim no NAVER Corp.

Ārpus "lētajam trikam"

Starp iepriekšējiem rādītājiem, ko jaunais dokuments cenšas uzlabot, ir “Saīsināšanas triks” ieteikts 2019 Sadarbībā starp Apvienotās Karalistes Heriot-Watt universitāti un Google DeepMind.

Saīsināšanas triks paraugu ņemšanai būtībā izmanto atšķirīgu latento sadalījumu, nekā tika izmantots ģeneratīvā modeļa apmācībai.

Pētnieki, kuri izstrādāja šo metodi, bija pārsteigti, ka tā strādāja, taču sākotnējā dokumentā atzīst, ka tā samazina ģenerētās produkcijas dažādību. Neskatoties uz to, saīsināšanas triks ir kļuvis efektīvs un populārs saistībā ar to, ko, iespējams, varētu pārdēvēt par “lētu triku”, lai iegūtu autentiskus rezultātus, kas īsti neasimilē visas datiem raksturīgās iespējas, un var līdzināties avota datiem vairāk nekā vēlams.

Attiecībā uz saīsināšanas triku jaunā dokumenta autori atzīmē:

“[Tas] nav paredzēts retu paraugu ģenerēšanai apmācības datu kopās, bet gan tipisku attēlu stabilākai sintezēšanai. Mēs izvirzām hipotēzi, ka esošie ģeneratīvie modeļi spēs radīt paraugus, kas ir bagātāki ar reālo datu sadalījumu, ja ģeneratoru varēs pamudināt efektīvi ražot retus paraugus.

No vispārējās tendences paļauties uz tradicionālajiem rādītājiem, piemēram, Frechet sākuma attālumu (FID, kas tika pakļauts intensīvai kritikai 2021. gada decembrī), sākuma punktu skaitu (IS) un kodola sākuma attālumu (KID) kā “progresa rādītājus” ģeneratīvā modeļa apmācībā, autori papildus komentē*:

“Šī mācīšanās shēma liek ģeneratoram nesintezēt daudz retu paraugu, kas ir unikāli un kuriem ir spēcīgas īpašības, kas neatspoguļo lielu daļu no reālā attēla sadalījuma. Retu paraugu piemēri no publiskajām datu kopām ir cilvēki ar dažādiem piederumiem FFHQ, baltie dzīvnieki AFHQ, un neparastas statujas Metfaces.

"Spēja ģenerēt retus paraugus ir svarīga ne tikai tāpēc, ka tā ir saistīta ar ģeneratīvo modeļu malu iespējām, bet arī tāpēc, ka unikalitātei ir svarīga loma radošajās lietojumprogrammās, piemēram, virtuālajos cilvēkos.

"Tomēr vairāku jaunāko pētījumu kvalitatīvie rezultāti reti satur šos retos piemērus. Mēs pieļaujam, ka pretrunīgās mācīšanās shēmas raksturs liek ģenerēt attēla sadalījumu, kas ir līdzīgs apmācības datu kopas sadalījumam. Tādējādi attēli ar skaidru individualitāti vai retumu aizņem tikai nelielu daļu no modeļu sintezētajiem attēliem.

Tehnika

Pētnieku jaunais retuma rādītājs pielāgo ideju, kas tika prezentēta agrāk darbi - pielietojums K-Tuvākie kaimiņi (KNN), lai attēlotu oriģinālo (apmācības) un sintētisko (izejas) datu masīvus attēlu sintēzes sistēmā.

Attiecībā uz šo jauno analīzes metodi autori apgalvo:

"Mēs izvirzām hipotēzi, ka parastie paraugi būtu tuvāk viens otram, savukārt unikālie un reti sastopamie paraugi būtu reti izvietoti objektu telpā."

Iepriekš redzamajā rezultātu attēlā redzami mazākie tuvāko kaimiņu attālumi (NND) no lielākajiem StyleGAN arhitektūrā, kas apmācīta FFHQ.

"Visām datu kopām paraugi ar mazākajiem NND parāda reprezentatīvus un tipiskus attēlus. Gluži pretēji, paraugiem ar lielākajiem NND ir spēcīga individualitāte un tie ievērojami atšķiras no tipiskajiem attēliem ar mazākajiem NND.

Teorētiski, izmantojot šo jauno metriku kā diskriminatoru vai vismaz iekļaujot to sarežģītākā diskriminatora arhitektūrā, ģeneratīvo sistēmu varētu novirzīt no tīras imitācijas uz izgudrojošāku algoritmu, vienlaikus saglabājot būtisku jēdzienu kohēziju, kas var būt kritiski. autentisku attēlu ražošanai (t "vīrietis", 'sieviete', "automašīna", 'baznīca', Utt.)

Salīdzinājumi un eksperimenti

Pārbaudēs pētnieki veica Rarity Score veiktspējas salīdzinājumu gan ar Truncation Trick, gan NVIDIA 2019. Reālisma rādītājs, un atklāja, ka dažādās sistēmās un datu kopās šī pieeja spēj individualizēt “unikālos” rezultātus.

Lai gan rakstā sniegtie rezultāti ir pārāk plaši, lai tos šeit iekļautu, šķiet, ka pētnieki ir pierādījuši jaunās metodes spēju identificēt retumu gan avota (īstos), gan ģenerētajos (viltus) attēlos ģeneratīvā procedūrā:

Atlasiet piemērus no plašajiem vizuālajiem rezultātiem, kas ir reproducēti rakstā (sīkāku informāciju skatiet avota URL iepriekš). Kreisajā pusē patiesi piemēri no FFHQ, kuriem ir ļoti maz tuvu kaimiņu (ti, tie ir jauni un neparasti) sākotnējā datu kopā; labajā pusē StyleGAN ģenerēti viltoti attēli, kurus jaunā metrika ir identificējusi kā patiesi jaunu. Tā kā šajā rakstā ir attēla lieluma ierobežojumi, lūdzu, skatiet avota dokumentu, lai iegūtu sīkāku informāciju un izšķirtspēju.

Jaunā Rarity Score metrika ļauj ne tikai identificēt “jaunu” ģeneratīvo izvadi vienā arhitektūrā, bet arī, kā apgalvo pētnieki, ļauj salīdzināt dažādu un dažādu arhitektūru ģeneratīvos modeļus (ti, autoencoder, VAE, GAN utt. ).

Rakstā atzīmēts, ka retuma rādītājs atšķiras no iepriekšējiem rādītājiem, koncentrējoties uz ģeneratīvās sistēmas spēju radīt unikālus un retus attēlus, pretstatā "tradicionālajai" metrikai, kas modeļa apmācības laikā pārbauda (drīzāk tuvredzīgāk) paaudžu daudzveidību.

Ārpus ierobežotiem uzdevumiem

Lai gan jaunā dokumenta pētnieki ir veikuši testus ar ierobežotu domēnu ietvariem (piemēram, ģeneratoru/datu kopu kombinācijām, kas paredzētas, lai īpaši radītu cilvēku vai kaķu attēlus, piemēram), retuma rādītāju potenciāli var izmantot jebkurai patvaļīgai attēlu sintēzes procedūrai. ir vēlams identificēt ģenerētus piemērus, kuros tiek izmantoti sadalījumi, kas iegūti no apmācītajiem datiem, tā vietā, lai palielinātu autentiskumu (un samazinātu daudzveidību), ievietojot svešus latentos sadalījumus vai paļaujoties uz citiem "īsceļiem", kas kompromitē novitāti par labu autentiskumam.

Faktiski šāda metrika varētu potenciāli atšķirt patiesi jaunus izvades gadījumus tādās sistēmās kā DALL-E sērija, izmantojot identificētu attālumu starp šķietamo “ārkārtējo” rezultātu, apmācības datiem un rezultātiem no līdzīgām uzvednēm vai ievades datiem (ti, attēlu). uzvednes).

Praksē un, ja nav skaidras izpratnes par to, cik lielā mērā sistēma ir patiesi asimilējusi vizuālos un semantiskos jēdzienus (ko bieži vien kavē ierobežotas zināšanas par apmācības datiem), šī varētu būt dzīvotspējīga metode, lai identificētu īstu iedvesma” ģeneratīvā sistēmā – punkts, kurā atbilstošs ievades jēdzienu un datu skaits ir radījis kaut ko patiesi izgudrojošu, nevis kaut ko pārāk atvasinātu vai tuvu avota datiem.

* Mani autoru iekļauto citātu pārveidojumi par hipersaitēm.

Pirmo reizi publicēts 20. gada 2022. jūnijā.

Nākošais

Jauna metode palīdz pašbraucošām automašīnām radīt "atmiņas"

Nepalaidiet garām

Inženieri izveido sakraujamu un pārkonfigurējamu AI mikroshēmu

Mārtiņš Andersons

Rakstnieks par mašīnmācību, mākslīgo intelektu un lielajiem datiem.
Personīgā vietne: Martinanderson.ai
Sazinieties ar: [e-pasts aizsargāts]
Twitter: @manders_ai