ciot Modelele de învățare profundă s-ar putea lupta să recunoască imaginile generate de AI - Unite.AI
Conectează-te cu noi

Inteligenta Artificiala

Modelele de învățare profundă s-ar putea lupta să recunoască imaginile generate de AI

mm
Actualizat on

Descoperirile dintr-o nouă lucrare indică faptul că AI de ultimă generație este semnificativ mai puțin capabilă să recunoască și să interpreteze imaginile sintetizate prin IA decât oamenii, ceea ce poate fi îngrijorător într-un climat viitor în care modelele de învățare automată sunt din ce în ce mai instruite pe date sintetice. și unde nu se va ști neapărat dacă datele sunt „reale” sau nu.

Aici vedem modelul de predicție resnext101_32x8d_wsl care se luptă în categoria „bagel”. În cadrul testelor, s-a considerat că a avut loc un eșec de recunoaștere dacă cuvântul țintă de bază (în acest caz „bagel”) nu a fost prezentat în primele cinci rezultate prezise. Sursa: https://arxiv.org/pdf/2208.10760.pdf

Aici vedem modelul de predicție resnext101_32x8d_wsl care se luptă în categoria „bagel”. În cadrul testelor, s-a considerat că a avut loc un eșec de recunoaștere dacă cuvântul țintă de bază (în acest caz „bagel”) nu a fost prezentat în primele cinci rezultate prezise. Sursă: https://arxiv.org/pdf/2208.10760.pdf

Noua cercetare a testat două categorii de cadru de recunoaștere bazat pe viziunea computerizată: recunoașterea obiectelor și răspunsul la întrebări vizuale (VQA).

În stânga, deducerea succeselor și eșecurilor dintr-un sistem de recunoaștere a obiectelor; în dreapta, sarcini VQA concepute pentru a sonda înțelegerea AI a scenelor și imaginilor într-un mod mai explorator și semnificativ. Surse: https://arxiv.org/pdf/2105.05312.pdf și https://arxiv.org/pdf/1505.00468.pdf

În stânga, deducerea succeselor și eșecurilor dintr-un sistem de recunoaștere a obiectelor; în dreapta, sarcini VQA concepute pentru a sonda înțelegerea AI a scenelor și imaginilor într-un mod mai explorator și semnificativ. Surse: https://arxiv.org/pdf/2105.05312.pdf și https://arxiv.org/pdf/1505.00468.pdf

Din zece modele de ultimă generație testate pe seturi de date curate generate de cadre de sinteză a imaginilor DALL-E2 și Mijlocul călătoriei, modelul cu cele mai bune performanțe a reușit să obțină doar 60% și 80% precizie în top-5 în cele două tipuri de teste, în timp ce ImageNet, instruit pe date nesintetice, din lumea reală, poate atinge 91% și, respectiv, 99% în aceleași categorii, în timp ce performanța umană este de obicei semnificativ mai mare.

Abordarea problemelor din jur schimbare de distribuție (alias „Model Drift”, unde modelele de predicție experimentează o capacitate de predicție redusă atunci când sunt mutate de la datele de antrenament la datele „reale”), lucrarea afirmă:

„Oamenii sunt capabili să recunoască imaginile generate și să răspundă cu ușurință la întrebări despre ele. Concluzionăm că a) modelele profunde se luptă să înțeleagă conținutul generat și se pot descurca mai bine după reglaj fin și b) există o schimbare mare de distribuție între imaginile generate și fotografiile reale. Schimbarea distribuției pare să fie dependentă de categorie.'

Având în vedere volumul de imagini sintetice care deja inunda internetul în urma celei de săptămâna trecută senzațional de sursă deschisă a celor puternici Difuzie stabilă model de sinteză de difuzie latentă, apare în mod natural posibilitatea ca imaginile „false” să intre în seturi de date standard din industrie, cum ar fi Crawl comun, variațiile de acuratețe de-a lungul anilor ar putea fi afectate semnificativ de imaginile „ireale”.

Deși datele sintetice au fost anunța ca potențial salvator al sectorului de cercetare a vederii computerizate înfometat de date, care adesea nu are resurse și bugete pentru curatarea la scară largă, noul torent de imagini Stable Diffusion (împreună cu creșterea generală a imaginilor sintetice de la apariția și comercializare of DALL-E2) este puțin probabil să vină cu etichete, adnotări și hashtag-uri la îndemână care să le deosebească drept „false” în punctul în care sistemele lacome de viziune artificială le scot de pe internet.

Viteza de dezvoltare a cadrelor de sinteză a imaginilor open source a depășit considerabil capacitatea noastră de a clasifica imaginile din aceste sisteme, ceea ce duce la interes în creștere pentru detectarea „imaginilor false”. sisteme, similare cu detectarea deepfake sisteme, dar însărcinat cu evaluarea imaginilor întregi, mai degrabă decât secțiuni de fețe.

hârtie nouă se intitulează Cât de bune sunt modelele profunde în înțelegerea imaginilor generate? și provine de la Ali Borji de la startup-ul Quintic AI din San Francisco.

Date

Studiul precede lansarea Stable Diffusion, iar experimentele folosesc date generate de DALL-E 2 și Midjourney în 17 categorii, inclusiv elefant, ciupercă, pizza, covrig, tractor și iepure.

Exemple de imagini din care au fost provocate sistemele de recunoaștere și VQA testate pentru a identifica cel mai important concept cheie.

Exemple de imagini din care au fost provocate sistemele de recunoaștere și VQA testate pentru a identifica cel mai important concept cheie.

Imaginile au fost obținute prin căutări pe web și prin Twitter și, în conformitate cu politicile DALL-E 2 (cel puțin, atunci), nu a inclus nicio imagine care să prezinte fețe umane. Au fost alese doar imagini de bună calitate, recunoscute de oameni.

Au fost selectate două seturi de imagini, câte unul pentru sarcinile de recunoaștere a obiectelor și VQA.

Numărul de imagini prezente în fiecare categorie testată pentru recunoașterea obiectelor.

Numărul de imagini prezente în fiecare categorie testată pentru recunoașterea obiectelor.

Testarea recunoașterii obiectelor

Pentru testele de recunoaștere a obiectelor, au fost testate zece modele, toate instruite pe ImageNet: AlexNet, ResNet152, MobileNetV2, DenseNet, ResNext, GoogleNet, ResNet101, Inception_V3, Deit, și ResNext_WSL.

Unele dintre clasele din sistemele testate au fost mai granulare decât altele, necesitând aplicarea abordărilor medii. De exemplu, ImageNet conține trei clase reținând „ceasuri” și a fost necesar să se definească un fel de metrică arbitrală, în care includerea oricărui „ceas” de orice tip în primele cinci etichete obținute pentru orice imagine a fost considerată un succes. în acel caz.

Performanță pe model în 17 categorii.

Performanță pe model în 17 categorii.

Modelul cu cele mai bune performanțe din această rundă a fost resnext101_32x8d_ws, atingând aproape 60% pentru top-1 (adică, momentele în care predicția sa preferată din cinci presupuneri a fost conceptul corect încorporat în imagine) și 80% pentru top-XNUMX ( adică conceptul dorit a fost cel puțin enumerat undeva în cele cinci presupuneri ale modelului despre imagine).

Autorul sugerează că performanța bună a acestui model se datorează faptului că a fost antrenat pentru predicția slab supravegheată a hashtag-urilor în platformele de social media. Cu toate acestea, aceste rezultate de top, notează autorul, sunt considerabil sub ceea ce ImageNet este capabil să obțină pe date reale, adică 91% și 99%. El sugerează că acest lucru se datorează unei disparități majore între distribuția imaginilor ImageNet (care sunt, de asemenea, răzuite de pe web) și imaginile generate.

Cele mai dificile cinci categorii pentru sistem, în ordinea dificultății, au fost zmeu, broască ţestoasă, veveriţă, ochelari de soare și cască. Lucrarea notează că zmeu clasa este adesea confundată cu balon, paraşută și umbrelă, deși aceste distincții sunt trivial de ușor de identificat de către observatorii umani.

Anumite categorii, inclusiv zmeu și broască ţestoasă, a provocat defecțiuni universale la toate modelele, în timp ce altele (în special covrig și tractor) a avut ca rezultat un succes aproape universal pentru modelele testate.

Categoriile de polarizare: unele dintre categoriile țintă alese fie au vizat toate modelele, fie au fost destul de ușor de identificat pentru toate modelele.

Categoriile de polarizare: unele dintre categoriile țintă alese fie au vizat toate modelele, fie au fost destul de ușor de identificat pentru toate modelele.

Autorii postulează că aceste constatări indică faptul că toate modelele de recunoaștere a obiectelor pot împărtăși puncte forte și puncte slabe similare.

Testarea răspunsului vizual la întrebări

În continuare, autorul a testat modele VQA pe VQA deschis și în formă liberă, cu întrebări binare (adică întrebări la care răspunsul poate fi doar „da” sau „nu”). Lucrarea notează că modelele recente VQA de ultimă generație sunt capabile să atingă o precizie de 95% pe Setul de date VQA-v2.

Pentru această etapă de testare, autorul a curatat 50 de imagini și a formulat 241 de întrebări în jurul lor, dintre care 132 au avut răspunsuri pozitive și 109 negative. Lungimea medie a întrebării a fost de 5.12 cuvinte.

Această rundă a folosit Model OFA, un cadru independent de sarcină și de modalitate pentru a testa caracterul cuprinzător al sarcinii și, recent, a fost cel mai important punctaj în Set de testare VQA-v2 standard. OFA a obținut o acuratețe de 77.27% la imaginile generate, în comparație cu propriul punctaj de 94.7% din setul test-std VQA-v2.

Exemple de întrebări și rezultate din secțiunea VQA a testelor. „GT” este „Ground Truth”, adică răspunsul corect.

Exemple de întrebări și rezultate din secțiunea VQA a testelor. „GT” este „Ground Truth”, adică răspunsul corect.

Autorul lucrării sugerează că o parte din motiv poate fi faptul că imaginile generate conțin concepte semantice absente din setul de date VQA-v2 și că întrebările scrise pentru testele VQA pot fi mai provocatoare pentru standardul general al întrebărilor VQA-v2, deși el consideră că primul motiv este mai probabil.

LSD în fluxul de date?

Opinie Noua proliferare a imaginilor sintetizate prin inteligență artificială, care poate prezenta conjuncții și abstracții instantanee ale conceptelor de bază care nu există în natură și care ar fi consumatoare de timp pentru a fi produse prin metode convenționale, ar putea prezenta o problemă specială pentru datele slab supravegheate. sisteme de colectare, care ar putea să nu poată eșua în mod grațios – în mare parte pentru că nu au fost concepute pentru a gestiona date sintetice de volum mare, neetichetate.

În astfel de cazuri, poate exista riscul ca aceste sisteme să regrupeze un procent de imagini sintetice „bizare” în clase incorecte, pur și simplu pentru că imaginile prezintă obiecte distincte care nu aparțin într-adevăr împreună.

„Astronaut călare pe un cal” a devenit poate cea mai emblematică imagine pentru noua generație de sisteme de sinteză a imaginilor – dar aceste relații „ireale” ar putea intra în sistemele reale de detectare dacă nu se acordă atenție. Sursa: https://twitter.com/openai/status/1511714545529614338?lang=ro

„Astronaut călare pe un cal” a devenit poate cea mai emblematică imagine pentru noua generație de sisteme de sinteză a imaginilor – dar aceste relații „ireale” ar putea intra în sistemele reale de detectare dacă nu se acordă atenție. Sursa: https://twitter.com/openai/status/1511714545529614338?lang=ro

Cu excepția cazului în care acest lucru poate fi prevenit în etapa de preprocesare înainte de instruire, astfel de conducte automate ar putea duce la formarea asocierilor improbabile sau chiar grotești în sistemele de învățare automată, degradându-le eficacitatea și riscând să treacă asocieri la nivel înalt în sisteme și subclase din aval. si categorii.

Alternativ, imaginile sintetice disjunse ar putea avea un „efect de înfrigurare” asupra acurateții sistemelor ulterioare, în eventualitatea în care ar apărea arhitecturi noi sau modificate care încearcă să țină seama de ad-hoc imagini sintetice și aruncați o plasă prea largă.

În ambele cazuri, imaginile sintetice din epoca post-difuziei stabile s-ar putea dovedi a fi o bătaie de cap pentru sectorul de cercetare a vederii computerizate ale cărui eforturi au făcut posibile aceste creații și capacități ciudate – nu în ultimul rând pentru că pune în pericol speranța sectorului că colectarea și conservarea datelor pot fi posibile. în cele din urmă, să fie mult mai automatizat decât este în prezent și mult mai puțin costisitoare și consumatoare de timp.

 

Publicat prima dată la 1 septembrie 2022.