stomp Diep leermodelle kan dalk sukkel om AI-gegenereerde beelde te herken - Unite.AI
Verbinding met ons

Kunsmatige Intelligensie

Deep Learning-modelle kan dalk sukkel om AI-gegenereerde beelde te herken

mm
Opgedateer on

Bevindinge uit 'n nuwe artikel dui daarop dat die nuutste KI aansienlik minder in staat is om KI-gesintetiseerde beelde te herken en te interpreteer as mense, wat kommerwekkend kan wees in 'n komende klimaat waar masjienleermodelle toenemend opgelei word op sintetiese data, en waar dit nie noodwendig bekend sal wees of die data 'werklik' is of nie.

Hier sien ons die resnext101_32x8d_wsl voorspellingsmodel sukkel in die 'bagel'-kategorie. In die toetse is geag dat 'n herkenningsmislukking plaasgevind het as die kernteikenwoord (in hierdie geval 'bagel') nie in die top vyf voorspelde resultate verskyn het nie. Bron: https://arxiv.org/pdf/2208.10760.pdf

Hier sien ons die resnext101_32x8d_wsl voorspellingsmodel sukkel in die 'bagel'-kategorie. In die toetse is geag dat 'n herkenningsmislukking plaasgevind het as die kernteikenwoord (in hierdie geval 'bagel') nie in die top vyf voorspelde resultate verskyn het nie. Bron: https://arxiv.org/pdf/2208.10760.pdf

Die nuwe navorsing het twee kategorieë van rekenaarvisie-gebaseerde herkenningsraamwerk getoets: objekherkenning en visuele vraagbeantwoording (VQA).

Aan die linkerkant, afleiding suksesse en mislukkings van 'n objekherkenningstelsel; aan die regterkant, VQA-take wat ontwerp is om KI-begrip van tonele en beelde op 'n meer verkennende en betekenisvolle manier te ondersoek. Bronne: https://arxiv.org/pdf/2105.05312.pdf en https://arxiv.org/pdf/1505.00468.pdf

Aan die linkerkant, afleiding suksesse en mislukkings van 'n objekherkenningstelsel; aan die regterkant, VQA-take wat ontwerp is om KI-begrip van tonele en beelde op 'n meer verkennende en betekenisvolle manier te ondersoek. Bronne: https://arxiv.org/pdf/2105.05312.pdf en https://arxiv.org/pdf/1505.00468.pdf

Uit tien moderne modelle wat getoets is op saamgestelde datastelle wat deur beeldsintese-raamwerke gegenereer is DALL-E2 en middel van die reis, kon die beste presterende model slegs 60% en 80% top-5 akkuraatheid oor die twee tipes toetse behaal, terwyl BeeldNet, opgelei op nie-sintetiese, werklike data, kan onderskeidelik 91% en 99% in dieselfde kategorieë behaal, terwyl menslike prestasie tipies aansienlik hoër is.

Die aanspreek van kwessies rondom verspreiding verskuiwing (ook bekend as 'Model Drift', waar voorspellingsmodelle verminderde voorspellingskapasiteit ervaar wanneer hulle van opleidingsdata na 'regte' data verskuif word), sê die koerant:

'Mense kan die gegenereerde beelde herken en maklik vrae daaroor beantwoord. Ons kom tot die gevolgtrekking dat a) diep modelle sukkel om die gegenereerde inhoud te verstaan, en kan beter vaar na fynverstelling, en b) daar is 'n groot verspreidingsverskuiwing tussen die gegenereerde beelde en die regte foto's. Die verspreidingsverskuiwing blyk kategorie-afhanklik te wees.'

Gegewe die hoeveelheid sintetiese beelde wat reeds die internet oorstroom het in die nasleep van verlede week s'n sensasionele oopbronne van die magtiges Stabiele verspreiding latente diffusie sintese model, die moontlikheid ontstaan ​​natuurlik dat as 'vals' beelde oorstroom in industrie-standaard datastelle soos Gewone kruip, kan variasies in akkuraatheid oor die jare aansienlik deur 'onwerklike' beelde beïnvloed word.

Alhoewel sintetiese data was ingelui as die potensiële redder van die data-gehongerde rekenaarvisie-navorsingsektor, wat dikwels nie hulpbronne en begrotings het vir hiperskaal-kurasie nie, die nuwe stortvloed van Stabiele Diffusie-beelde (saam met die algemene toename in sintetiese beelde sedert die koms en kommersialisering of DALL-E2) sal waarskynlik nie almal met handige etikette, aantekeninge en hutsmerke kom wat hulle as 'vals' onderskei op die punt dat gulsige masjienvisiestelsels hulle van die internet af skraap nie.

Die spoed van ontwikkeling in oopbron-beeldsintese-raamwerke het veral ons vermoë om beelde van hierdie stelsels te kategoriseer verbygesteek, wat lei tot groeiende belangstelling in 'vals beeld'-opsporing stelsels, soortgelyk aan diep valse opsporing stelsels, maar die taak is om hele beelde te evalueer eerder as gedeeltes van gesigte.

Die nuwe papier is getiteld Hoe goed is diep modelle om die gegenereerde beelde te verstaan?, en kom van Ali Borji van die San Francisco-masjienleer-opstart Quintic AI.

data

Die studie dateer voor die vrystelling van stabiele diffusie, en die eksperimente gebruik data wat deur DALL-E 2 en Midjourney oor 17 kategorieë gegenereer is, insluitend olifant, sampioen, pizza, krakeling, trekker en haas.

Voorbeelde van die beelde waaruit die getoetsde herkenning en VQA-stelsels uitgedaag is om die belangrikste sleutelkonsep te identifiseer.

Voorbeelde van die beelde waaruit die getoetsde herkenning en VQA-stelsels uitgedaag is om die belangrikste sleutelkonsep te identifiseer.

Beelde is verkry via websoektogte en deur Twitter, en, in ooreenstemming met DALL-E 2 se beleide (ten minste, op daardie stadium), het geen beelde met menslike gesigte ingesluit nie. Slegs goeie kwaliteit beelde, herkenbaar deur mense, is gekies.

Twee stelle beelde is saamgestel, een elk vir die objekherkenning en VQA-take.

Die aantal beelde teenwoordig in elke getoets kategorie vir voorwerpherkenning.

Die aantal beelde teenwoordig in elke getoets kategorie vir voorwerpherkenning.

Toets objekherkenning

Vir die voorwerpherkenningstoetse is tien modelle, almal opgelei op ImageNet, getoets: AlexNet, ResNet152, MobileNetV2, DigNet, ResVolgende, GoogleNet, ResNet101, Begin_V3, Deit, en ResNext_WSL.

Sommige van die klasse in die getoetste stelsels was meer korrelvormig as ander, wat die toepassing van gemiddelde benaderings genoodsaak het. ImageNet bevat byvoorbeeld drie klasse wat aan 'horlosies' behou, en dit was nodig om 'n soort arbitrasionele maatstaf te definieer, waar die insluiting van enige 'horlosie' van enige tipe in die top vyf verkrygde etikette vir enige beeld as 'n sukses beskou is. in daardie geval.

Per-model prestasie oor 17 kategorieë.

Per-model prestasie oor 17 kategorieë.

Die beste presterende model in hierdie rondte was resnext101_32x8d_ws, wat byna 60% vir top-1 behaal het (dws die tye waar sy voorkeurvoorspelling uit vyf raaiings die korrekte konsep was wat in die beeld beliggaam is), en 80% vir top-vyf ( ie die verlangde konsep is darem iewers in die model se vyf raaiskote oor die prentjie gelys).

Die skrywer stel voor dat hierdie model se goeie prestasie te danke is aan die feit dat dit opgelei is vir die swak toesig voorspelling van hutsmerke in sosiale media-platforms. Hierdie toonaangewende resultate, merk die skrywer op, is egter veral onder wat ImageNet op werklike data kan bereik, naamlik 91% en 99%. Hy stel voor dat dit te wyte is aan 'n groot verskil tussen die verspreiding van ImageNet-beelde (wat ook van die web geskraap word) en gegenereerde beelde.

Die vyf moeilikste kategorieë vir die stelsel, in volgorde van moeilikheidsgraad, was vlieër, skilpad, eekhoring, sonbril en helmet. Die koerant merk op dat die vlieër klas word dikwels verwar met ballon, valskerm en sambreel, alhoewel hierdie onderskeidings onbenullig maklik is vir menslike waarnemers om te individueer.

Sekere kategorieë, insluitend vlieër en skilpad, het universele mislukking oor alle modelle veroorsaak, terwyl ander (veral krakeling en trekker) het byna universele sukses oor die getoetsde modelle tot gevolg gehad.

Polariserende kategorieë: sommige van die teikenkategorieë wat gekies is, het óf al die modelle gefok, óf andersins was dit redelik maklik vir al die modelle om te identifiseer.

Polariserende kategorieë: sommige van die teikenkategorieë wat gekies is, het óf al die modelle gefok, óf andersins was dit redelik maklik vir al die modelle om te identifiseer.

Die skrywers postuleer dat hierdie bevindinge aandui dat alle objekherkenningsmodelle soortgelyke sterk- en swakpunte kan deel.

Toets Visuele Vraagbeantwoording

Vervolgens het die skrywer VQA-modelle op oop-einde en vryvorm VQA getoets, met binêre vrae (dws vrae waarop die antwoord slegs 'ja' of 'nee' kan wees). Die koerant merk op dat onlangse moderne VQA-modelle in staat is om 95% akkuraatheid op die VQA-v2 datastel.

Vir hierdie stadium van toetsing het die skrywer 50 beelde saamgestel en 241 vrae rondom hulle geformuleer, waarvan 132 positiewe antwoorde gehad het en 109 negatief. Die gemiddelde vraaglengte was 5.12 woorde.

Hierdie rondte het die OFA model, 'n taak-agnostiese en modaliteit-agnostiese raamwerk om taakomvattendheid te toets, en was onlangs die voorste puntemaker in die VQA-v2 toets-std stel. OFA het 77.27% akkuraatheid op die gegenereerde beelde behaal, vergeleke met sy eie 94.7%-telling in die VQA-v2-toets-std-stel.

Voorbeeldvrae en resultate uit die VQA-afdeling van die toetse. 'GT' is 'Ground Truth', dit wil sê die korrekte antwoord.

Voorbeeldvrae en resultate uit die VQA-afdeling van die toetse. 'GT' is 'Ground Truth', dit wil sê die korrekte antwoord.

Die koerant se skrywer stel voor dat 'n deel van die rede kan wees dat die gegenereerde beelde semantiese konsepte bevat wat afwesig is in die VQA-v2-datastel, en dat die vrae wat vir die VQA-toetse geskryf is, die algemene standaard van VQA-v2-vrae meer uitdagend kan wees, alhoewel hy glo dat eersgenoemde rede meer waarskynlik is.

LSD in die datastroom?

Mening Die nuwe verspreiding van KI-gesintetiseerde beelde, wat onmiddellike samevoegings en abstraksies van kernkonsepte kan aanbied wat nie in die natuur bestaan ​​nie, en wat buitensporig tydrowend sal wees om via konvensionele metodes te produseer, kan 'n besondere probleem vir data met swak toesig bied - versamelingstelsels, wat dalk nie grasieus kan misluk nie – grootliks omdat hulle nie ontwerp is om hoëvolume, ongemerkte sintetiese data te hanteer nie.

In sulke gevalle kan daar 'n risiko wees dat hierdie stelsels 'n persentasie 'bisarre' sintetiese beelde in verkeerde klasse sal plaas bloot omdat die beelde verskillende voorwerpe bevat wat nie regtig bymekaar hoort nie.

'Ruimtevaarder wat op 'n perd ry' het miskien die mees emblematiese beeld vir die nuwe generasie beeldsintesestelsels geword - maar hierdie 'onwerklike' verhoudings kan werklike opsporingstelsels binnedring tensy sorg gedra word. Bron: https://twitter.com/openai/status/1511714545529614338?lang=af

'Ruimtevaarder wat op 'n perd ry' het miskien die mees emblematiese beeld vir die nuwe generasie beeldsintesestelsels geword - maar hierdie 'onwerklike' verhoudings kan werklike opsporingstelsels binnedring tensy sorg gedra word. Bron: https://twitter.com/openai/status/1511714545529614338?lang=af

Tensy dit in die voorverwerkingstadium voor opleiding voorkom kan word, kan sulke geoutomatiseerde pyplyne daartoe lei dat onwaarskynlike of selfs groteske assosiasies in masjienleerstelsels opgelei word, wat hul doeltreffendheid afbreek en die risiko loop om hoëvlakassosiasies in stroomafstelsels en subklasse oor te dra. en kategorieë.

Alternatiewelik kan uiteenlopende sintetiese beelde 'n 'verkoelende effek' hê op die akkuraatheid van latere stelsels, in die geval dat nuwe of gewysigde argitekture sou ontstaan ​​wat probeer om verantwoording te doen ad hoc sintetiese beelde, en gooi 'n te wye net.

In beide gevalle kan sintetiese beelde in die post-stabiele diffusie-era 'n kopseer wees vir die rekenaarvisie-navorsingsektor wie se pogings hierdie vreemde skeppings en vermoëns moontlik gemaak het – nie die minste nie omdat dit die sektor se hoop in die gedrang bring dat die insameling en samestelling van data kan uiteindelik baie meer geoutomatiseerd wees as wat dit tans is, en baie goedkoper en tydrowend.

 

Eerste gepubliseer 1 September 2022.