tynkä Deep Learning -mallit saattavat kamppailla tunnistaakseen tekoälyn luomia kuvia - Unite.AI
Liity verkostomme!

Tekoäly

Deep Learning -mallit saattavat kamppailla tunnistaakseen tekoälyn luomia kuvia

mm
Päivitetty on

Uuden paperin havainnot osoittavat, että huipputekninen tekoäly kykenee huomattavasti huonommin tunnistamaan ja tulkitsemaan tekoälyn syntetisoimia kuvia kuin ihmiset, mikä saattaa olla huolestuttavaa tulevassa ilmapiirissä, jossa koneoppimismalleja koulutetaan yhä enemmän synteettisten tietojen pohjalta. ja missä ei välttämättä tiedetä, ovatko tiedot "oikeita" vai eivät.

Tässä näemme resnext101_32x8d_wsl-ennustemallin kamppailevan "bagel"-luokassa. Testeissä tunnistusvirheen katsottiin tapahtuneen, jos ydinkohdesana (tässä tapauksessa 'bagel') ei ollut viiden parhaan ennustetun tuloksen joukossa. Lähde: https://arxiv.org/pdf/2208.10760.pdf

Tässä näemme resnext101_32x8d_wsl-ennustemallin kamppailevan "bagel"-luokassa. Testeissä tunnistusvirheen katsottiin tapahtuneen, jos ydinkohdesana (tässä tapauksessa 'bagel') ei ollut viiden parhaan ennustetun tuloksen joukossa. Lähde: https://arxiv.org/pdf/2208.10760.pdf

Uusi tutkimus testasi kahta tietokonenäköpohjaista tunnistuskehystä: objektin tunnistusta ja visuaalista kysymysvastausta (VQA).

Vasemmalla päättele onnistumisia ja epäonnistumisia objektintunnistusjärjestelmästä; oikealla VQA-tehtävät, jotka on suunniteltu tutkimaan kohtausten ja kuvien tekoälyn ymmärtämistä tutkivammalla ja merkityksellisemmällä tavalla. Lähteet: https://arxiv.org/pdf/2105.05312.pdf ja https://arxiv.org/pdf/1505.00468.pdf

Vasemmalla päättele onnistumisia ja epäonnistumisia objektintunnistusjärjestelmästä; oikealla VQA-tehtävät, jotka on suunniteltu tutkimaan kohtausten ja kuvien tekoälyn ymmärtämistä tutkivammalla ja merkityksellisemmällä tavalla. Lähteet: https://arxiv.org/pdf/2105.05312.pdf ja https://arxiv.org/pdf/1505.00468.pdf

Kymmenestä huippuluokan mallista, jotka on testattu kuvasynteesikehysten luomilla kuratoiduilla tietojoukoilla DALL-E2 ja Keskimatka, parhaiten suoriutunut malli pystyi saavuttamaan vain 60 % ja 80 % top-5 tarkkuuden kahdessa testityypissä, kun taas ImageNet, joka on koulutettu ei-synteettisiin todellisiin tietoihin, voi saavuttaa vastaavasti 91 % ja 99 % samoissa luokissa, kun taas ihmisen suorituskyky on tyypillisesti huomattavasti korkeampi.

Ympärillä olevien ongelmien ratkaiseminen jakelun muutos (alias "Model Drift", jossa ennustemallit kokevat heikentyneen ennustuskyvyn, kun ne siirretään harjoitustiedoista "oikeisiin" tietoihin), paperi toteaa:

”Ihminen tunnistaa luodut kuvat ja vastaa helposti niihin liittyviin kysymyksiin. Päättelemme, että a) syvämallien on vaikea ymmärtää luotua sisältöä, ja ne voivat pärjätä paremmin hienosäädön jälkeen, ja b) luotujen kuvien ja todellisten valokuvien välillä on suuri jakautumissiirtymä. Jakauman muutos näyttää olevan kategoriariippuvainen.'

Ottaen huomioon synteettisten kuvien määrä, joka jo tulvii Internetiin viime viikon jälkeen sensaatiomainen avoimen lähdekoodin vahvoista Vakaa diffuusio piilevä diffuusiosynteesimalli, syntyy luonnollisesti mahdollisuus, että kun "väärennökset" tulvii alan standardinmukaisiin tietokokonaisuuksiin, kuten esim. Yleinen indeksointi, "epätodelliset" kuvat voivat vaikuttaa merkittävästi tarkkuuden vaihteluihin vuosien aikana.

Vaikka synteettistä dataa on ollut ennustettu mahdollisena pelastajana datan nälkäiselle tietokonenäön tutkimussektorille, jolla ei useinkaan ole resursseja ja budjetteja hyperskaalaiseen kuratointiin, uusi Stable Diffusion -kuvien virta (sekä synteettisten kuvien yleisen kasvun myötä ja kaupallistaminen of DALL-E2) tuskin kaikissa on käteviä tarroja, merkintöjä ja hashtageja, jotka erottavat ne "väärennöksiksi" siinä vaiheessa, kun ahneet konenäköjärjestelmät raaputtavat ne Internetistä.

Avoimen lähdekoodin kuvasynteesikehysten kehitysnopeus on huomattavasti nopeampi kuin kykymme luokitella kuvia näistä järjestelmistä, mikä on johtanut kasvava kiinnostus väärennettyjen kuvien havaitsemiseen vastaavia järjestelmiä syvän väärennöksen tunnistus järjestelmät, mutta tehtävänä on arvioida kokonaisia ​​kuvia pikemminkin kuin kasvojen osia.

- uusi paperi on otsikko Kuinka hyviä ovat syvämallit luotujen kuvien ymmärtämisessä?, ja tulee Ali Borjilta San Franciscon koneoppimisen startupista Quintic AI.

Päiväys

Tutkimus on tehty ennen Stable Diffusion -julkaisua, ja kokeissa käytetään DALL-E 2:n ja Midjourneyn tuottamia tietoja 17 kategoriassa, mukaan lukien elefantti, sieni, pizza, suolarinkilä, traktori ja kani.

Esimerkkejä kuvista, joista testatut tunnistus- ja VQA-järjestelmät haastettiin tunnistamaan tärkein avainkäsite.

Esimerkkejä kuvista, joista testatut tunnistus- ja VQA-järjestelmät haastettiin tunnistamaan tärkein avainkäsite.

Kuvat hankittiin verkkohakujen ja Twitterin kautta sekä DALL-E 2:n käytäntöjen mukaisesti (ainakin tällä hetkellä), ei sisältänyt kuvia, joissa oli ihmiskasvoja. Vain hyvälaatuisia kuvia, jotka ihmiset tunnistavat, valittiin.

Kaksi kuvasarjaa kuratoitiin, yksi objektintunnistus- ja VQA-tehtäviä varten.

Kuvien määrä kussakin testatussa objektintunnistuskategoriassa.

Kuvien määrä kussakin testatussa objektintunnistuskategoriassa.

Objektintunnistuksen testaus

Objektintunnistustestejä varten testattiin kymmentä mallia, jotka kaikki koulutettiin ImageNetissä: AlexNet, ResNet152, MobileNetV2, DenseNet, ResNext, GoogleNet, ResNet101, Aloitus_V3, Deitja ResNext_WSL.

Jotkut testattujen järjestelmien luokat olivat rakeisempia kuin toiset, mikä vaati keskiarvoisten lähestymistapojen soveltamista. Esimerkiksi ImageNet sisältää kolme luokkaa, jotka säilyttävät "kellot", ja oli tarpeen määritellä jonkinlainen mielivaltainen metriikka, jossa minkä tahansa tyyppisen "kellon" sisällyttäminen viiden parhaan merkin joukkoon pidettiin onnistumisena. siinä tapauksessa.

Mallikohtainen suorituskyky 17 kategoriassa.

Mallikohtainen suorituskyky 17 kategoriassa.

Tämän kierroksen parhaiten menestynyt malli oli resnext101_32x8d_ws, joka saavutti lähes 60 % top-1:stä (eli ajat, jolloin sen ensisijainen ennuste viidestä arvauksesta oli oikea käsite kuvassa), ja 80 % viiden parhaan ( eli haluttu konsepti oli ainakin jossain mallin viidessä arvauksessa kuvasta).

Kirjoittaja ehdottaa, että mallin hyvä suorituskyky johtuu siitä, että se on koulutettu heikosti valvottuun hashtagejen ennustamiseen sosiaalisen median alustoilla. Kirjoittajan mukaan nämä johtavat tulokset ovat kuitenkin huomattavasti alle sen, mitä ImageNet pystyy saavuttamaan todellisilla tiedoilla, eli 91 % ja 99 %. Hän ehdottaa, että tämä johtuu suuresta erosta ImageNet-kuvien (jotka myös kaavitaan verkosta) ja luotujen kuvien välillä.

Järjestelmän viisi vaikeinta luokkaa olivat vaikeusjärjestyksessä leija, kilpikonna, orava, aurinkolasit ja kypärä. Lehti toteaa, että leija luokka sekoitetaan usein ilmapallo, laskuvarjo ja sateenvarjo, vaikka nämä erot ovatkin ihmistarkkailijoiden helppoja yksilöidä.

Tietyt luokat, mukaan lukien leija ja kilpikonna, aiheutti yleisen vian kaikissa malleissa, kun taas toiset (erityisesti suolarinkilä ja traktori) johti lähes yleiseen menestykseen testatuissa malleissa.

Polarisoituvat kategoriat: jotkin valituista kohdekategorioista joko sekoittivat kaikki mallit, tai muuten ne olivat melko helposti kaikkien mallien tunnistettavissa.

Polarisoituvat kategoriat: jotkin valituista kohdekategorioista joko sekoittivat kaikki mallit, tai muuten ne olivat melko helposti kaikkien mallien tunnistettavissa.

Kirjoittajat olettavat, että nämä havainnot osoittavat, että kaikilla esineiden tunnistusmalleilla voi olla samanlaisia ​​vahvuuksia ja heikkouksia.

Visuaalisen kysymykseen vastaamisen testaus

Seuraavaksi kirjoittaja testasi VQA-malleja avoimessa ja vapaamuotoisessa VQA:ssa binäärikysymyksillä (eli kysymyksillä, joihin vastaus voi olla vain "kyllä" tai "ei"). Paperi toteaa, että viimeaikaiset VQA-mallit pystyvät saavuttamaan 95 prosentin tarkkuuden VQA-v2 tietojoukko.

Tätä testausvaihetta varten kirjoittaja kuratoi 50 kuvaa ja muotoili niiden ympärille 241 kysymystä, joista 132:een oli myönteinen vastaus ja 109:een negatiivinen vastaus. Keskimääräinen kysymyksen pituus oli 5.12 sanaa.

Tällä kierroksella käytettiin OFA malli, tehtäväagnostinen ja modaalisuusagnostinen kehys tehtävän kattavuuden testaamiseen, ja se oli äskettäin johtava pistemäärä VQA-v2 testi-std sarja. OFA sai 77.27 prosentin tarkkuuden luoduista kuvista verrattuna sen omaan 94.7 prosentin pistemäärään VQA-v2-test-std-sarjassa.

Esimerkkikysymykset ja tulokset kokeiden VQA-osiosta. "GT" on "Ground Truth", eli oikea vastaus.

Esimerkkikysymykset ja tulokset kokeiden VQA-osiosta. 'GT' on 'Ground Truth' eli oikea vastaus.

Teoksen kirjoittaja ehdottaa, että osa syynä voi olla se, että luodut kuvat sisältävät semanttisia käsitteitä, jotka puuttuvat VQA-v2-tietojoukosta, ja että VQA-testeihin kirjoitetut kysymykset voivat olla haastavampia VQA-v2-kysymysten yleiselle tasolle, vaikka hän uskoo, että edellinen syy on todennäköisempi.

LSD tietovirrassa?

Lausunto Tekoälyllä syntetisoitujen kuvien uusi lisääntyminen, joka voi esittää välittömiä konjunktioita ja abstraktioita ydinkäsitteistä, joita ei ole luonnossa ja jonka tuottaminen perinteisillä menetelmillä olisi kohtuuttoman aikaavievää, voi muodostaa erityisen ongelman heikosti valvotulle datalle. kerätä järjestelmiä, jotka eivät ehkä voi epäonnistua sulavasti – suurelta osin siksi, että niitä ei ole suunniteltu käsittelemään suuria määriä merkitsemätöntä synteettistä dataa.

Tällaisissa tapauksissa voi olla vaara, että nämä järjestelmät yhdistävät prosenttiosuuden "oudoista" synteettisistä kuvista vääriin luokkiin yksinkertaisesti siksi, että kuvissa on erillisiä objekteja, jotka eivät todellisuudessa kuulu yhteen.

"Astronautti ratsastaa hevosella" on ehkä tullut symbolisin visuaalinen kuva uuden sukupolven kuvasynteesijärjestelmille – mutta nämä "epätodelliset" suhteet voivat päästä todellisiin havaitsemisjärjestelmiin, ellei niistä huolehdita. Lähde: https://twitter.com/openai/status/1511714545529614338?lang=en

"Astronautti ratsastaa hevosella" on ehkä tullut symbolisin visuaalinen kuva uuden sukupolven kuvasynteesijärjestelmille – mutta nämä "epätodelliset" suhteet voivat päästä todellisiin havaitsemisjärjestelmiin, ellei niistä huolehdita. Lähde: https://twitter.com/openai/status/1511714545529614338?lang=en

Ellei tätä voida estää koulutusta edeltävässä esikäsittelyvaiheessa, tällaiset automatisoidut putkilinjat voivat johtaa epätodennäköisten tai jopa groteskien assosiaatioiden kouluttamiseen koneoppimisjärjestelmiin, mikä heikentää niiden tehokkuutta ja vaarantaa korkean tason assosiaatioiden siirtymisen loppupään järjestelmiin ja alaluokkiin. ja luokat.

Vaihtoehtoisesti hajaantuneilla synteettisillä kuvilla voi olla "jäädyttävä vaikutus" myöhempien järjestelmien tarkkuuteen siinä tapauksessa, että ilmaantuu uusia tai muutettuja arkkitehtuureja, jotka yrittävät ottaa huomioon ad hoc synteettisiä kuvia ja heittää liian leveän verkon.

Kummassakin tapauksessa synteettiset kuvat vakaan diffuusion jälkeisellä aikakaudella voivat osoittautua päänsärkyksi tietokonenäön tutkimussektorille, jonka ponnistelut mahdollistivat nämä omituiset luomukset ja valmiudet – ei vähiten siksi, että se vaarantaa alan toivon, että tietojen kerääminen ja kuratointi lopulta paljon automatisoidumpi kuin nykyään ja paljon halvempi ja aikaa vievä.

 

Julkaistu ensimmäisen kerran 1.