tynkä Kuvien koodaus käyttöä vastaan ​​Deepfake- ja Image Synthesis Systems -järjestelmissä - Unite.AI
Liity verkostomme!

Tekoäly

Kuvien koodaus Deepfake- ja Image Synthesis -järjestelmissä käyttöä vastaan

mm
Päivitetty on

Tunnetuin tutkimuslinja kasvavalla anti-deepfake-tutkimussektorilla sisältää järjestelmät, jotka voivat tunnistaa artefakteja tai muita oletettavasti erottuvia piirteitä syvälle väärennetyistä, syntetisoiduista tai muuten väärennetyistä tai "muokattuista" kasvoista video- ja kuvasisällössä.

Tällaiset lähestymistavat käyttävät erilaisia ​​​​taktiikoita, mukaan lukien syvyystunnistus, videon säännöllisyyshäiriö, näytön valaistuksen vaihtelut (mahdollisesti syvästi väärennetyissä live-videopuheluissa), biometrisiä ominaisuuksia, ulkopinnat, ja jopa piilotettuja voimia ihmisen alitajuntajärjestelmästä.

Näillä ja vastaavilla menetelmillä on yhteistä se, että niiden käyttöönotossa keskeisiä mekanismeja, joita vastaan ​​he taistelevat, on jo onnistuneesti koulutettu tuhansiin tai satoihin tuhansiin verkosta kaavittuihin kuviin – kuviin, joista autoenkooderijärjestelmät voivat johtaa helposti tärkeimmät ominaisuudet ja luoda malleja, jotka voivat tarkasti asettaa väärän identiteetin videomateriaaliin tai syntetisoituihin kuviin – jopa oikeassa ajassa.

Lyhyesti sanottuna, kun tällaiset järjestelmät ovat aktiivisia, hevonen on jo pultannut.

Kuvat, jotka ovat vihamielisiä syvälle väärennös-/synteesiarkkitehtuureille

Enemmän tapaan ehkäisevä suhtautuminen syväväärennösten ja kuvasynteesin uhkaan, tämän alan vähemmän tunnettu tutkimusosuus sisältää mahdollisuudet, jotka liittyvät kaikkien näiden lähdekuvien tekemiseen. epäystävällinen kohti tekoälykuvan synteesijärjestelmiä, yleensä huomaamattomilla tai tuskin havaittavilla tavoilla.

Esimerkkejä ovat FakeTagger, Yhdysvaltojen ja Aasian eri instituutioiden vuoden 2021 ehdotus, joka koodaa viestit kuviksi; nämä koodaukset kestävät yleistysprosessia, ja ne voidaan myöhemmin palauttaa senkin jälkeen, kun kuvat on kaavittu verkosta ja koulutettu Generative Adversarial Network (GAN) -verkostoksi, jonka tyyppi on thispersondoesnotexist.comin tunnetuin ilmentämä. lukuisia johdannaisia.

FakeTagger koodaa tietoja, jotka selviävät yleistysprosessista GAN:ia opetettaessa, jolloin voidaan tietää, vaikuttiko tietty kuva järjestelmän luomiskykyyn. Lähde: https://arxiv.org/pdf/2009.09869.pdf

FakeTagger koodaa tietoja, jotka selviävät yleistysprosessista GAN:ia opetettaessa, jolloin voidaan tietää, vaikuttiko tietty kuva järjestelmän luomiskykyyn. Lähde: https://arxiv.org/pdf/2009.09869.pdf

ICCV 2021 -tapahtumaa varten aloitettiin myös toinen kansainvälinen hanke keinotekoiset sormenjäljet ​​generatiivisiin malleihin, (katso kuva alla), joka taas tuottaa palautettavia "sormenjälkiä" kuvasynteesin GAN-tulostuksesta, kuten StyleGAN2.

ProGANin läpi kulkeneet sormenjäljet ​​pysyvät palautettavissa jopa monissa äärimmäisissä käsittelyissä, rajaamisessa ja kasvojen vaihdossa. Lähde: https://arxiv.org/pdf/2007.08457.pdf

ProGANin läpi kulkeneet sormenjäljet ​​pysyvät palautettavissa jopa monissa äärimmäisissä käsittelyissä, rajaamisessa ja kasvojen vaihdossa. Lähde: https://arxiv.org/pdf/2007.08457.pdf

Muita tämän käsitteen iteraatioita ovat a 2018-projekti IBM:ltä ja a digitaalinen vesileimajärjestelmä samana vuonna Japanista.

Innovatiivisemmin 2021 aloite Nanjingin ilmailu- ja astronautiikkayliopisto pyrki "salaamaan" harjoituskuvat siten, että ne harjoittaisivat tehokkaasti vain valtuutetuissa järjestelmissä, mutta epäonnistuisivat katastrofaalisesti, jos niitä käytetään lähdetietona yleisessä kuvasynteesin koulutusputkessa.

Käytännössä kaikki nämä menetelmät kuuluvat steganografian luokkaan, mutta kaikissa tapauksissa kuvien yksilöllinen tunnistetieto on koodattava niin olennaiseksi kuvan "ominaisuudeksi", ettei ole mahdollista, että autoenkooderi tai GAN-arkkitehtuuri hylkää tällaisen. sormenjäljet ​​"kohinaksi" tai poikkeaviksi ja välttämättömiksi tiedoiksi, vaan pikemminkin koodaavat sen yhdessä muiden kasvonpiirteiden kanssa.

Samaan aikaan prosessin ei saa antaa vääristää tai muuten visuaalisesti vaikuttaa kuvaan niin paljon, että satunnainen katsoja näkisi sen olevan virheellinen tai huonolaatuinen.

TAFIM

Nyt uusi saksalainen tutkimusyritys (Münchenin teknillisestä yliopistosta ja Sony Europe RDC Stuttgartista) on ehdottanut kuvan koodaustekniikkaa, jossa syväfake-mallit tai StyleGAN-tyyppiset kehykset, jotka on koulutettu käsitellyille kuville, tuottavat käyttökelvottoman sinisen tai valkoisen tulosteen. .

TAFIM:n matalan tason kuvahäiriöt käsittelevät useita mahdollisia kasvojen vääristymiä/korvauksia ja pakottavat kuviin koulutetut mallit tuottamaan vääristyneitä tuloksia, ja kirjoittajien mukaan niitä voidaan soveltaa jopa reaaliaikaisissa skenaarioissa, kuten DeepFaceLiven reaaliaikainen syväfake-suoratoisto. . Lähde: https://arxiv.org/pdf/2112.09151.pdf

TAFIM:n matalan tason kuvahäiriöt käsittelevät useita mahdollisia kasvojen vääristymiä/korvauksia ja pakottavat kuviin koulutetut mallit tuottamaan vääristyneitä tuloksia, ja kirjoittajien mukaan niitä voidaan soveltaa jopa reaaliaikaisissa skenaarioissa, kuten DeepFaceLiven reaaliaikainen syväfake-suoratoisto. . Lähde: https://arxiv.org/pdf/2112.09151.pdf

- paperi, nimeltään TAFIM: Kohdistetut vastakkaiset hyökkäykset kasvokuvamanipulaatioita vastaan, käyttää hermoverkkoa tuskin havaittavien häiriöiden koodaamiseen kuviin. Kun kuvat on koulutettu ja yleistetty synteesiarkkitehtuuriksi, tuloksena oleva malli tuottaa värjäytyneitä tulosteita tuloidentiteetille, jos sitä käytetään joko tyylisekoituksessa tai suoraviivaisessa kasvojen vaihdossa.

TAFIM: Kohdistetut vastakkaiset hyökkäykset kasvokuvamanipulaatioita vastaan ​​(ECCV'22)

Koodataanko Web uudelleen..?

Tässä tapauksessa emme kuitenkaan ole täällä tutkiaksemme tämän suositun konseptin viimeisimmän version yksityiskohtia ja arkkitehtuuria, vaan pikemminkin pohtiaksemme koko idean käytännöllisyyttä – varsinkin kun otetaan huomioon kasvava kiista julkisen kaavitut kuvat tehostamaan kuvasynteesikehystä, kuten Vakaa diffuusioja sen myöhemmät oikeudelliset seuraukset kaupallisten ohjelmistojen johdosta sisällöstä, jolla saattaa (ainakin joillakin lainkäyttöalueilla) lopulta osoittautua oikeudellinen suoja tekoälyn synteesiarkkitehtuuriin pääsyä vastaan.

Edellä kuvatun kaltaiset ennakoivat, koodauspohjaiset lähestymistavat eivät ole vähäisiä kustannuksia. Ainakin ne edellyttäisivät uusien ja laajennettujen pakkausrutiinien käyttöönottoa tavallisiin web-pohjaisiin käsittelykirjastoihin, kuten esim. ImageMagick, jotka ohjaavat lukuisia latausprosesseja, mukaan lukien monet sosiaalisen median latausliitännät, joiden tehtävänä on muuntaa ylisuuret alkuperäiset käyttäjäkuvat optimoiduiksi versioiksi, jotka sopivat paremmin kevyeen jakamiseen ja verkkojakeluun sekä muunnoksien, kuten rajausten, ja muut lisäykset.

Ensisijainen kysymys, jonka tämä herättää, on: toteutettaisiinko tällainen järjestelmä "jatkossa" vai olisiko tarkoitettu laajempaan ja takautuvaan käyttöönotolle, joka koskee historiallisia tiedotusvälineitä, jotka ovat saattaneet olla saatavilla "korruptoitumattomina" vuosikymmeniä?

Netflixin kaltaiset alustat ovat ei vastenmielistä takakatalogin uudelleenkoodauksen kustannuksella uusilla koodekeilla, jotka voivat olla tehokkaampia tai voisivat muuten tarjota käyttäjälle tai palveluntarjoajalle etuja; samoin YouTuben historiallisen sisällön muuntaminen H.264-koodekiksi, ilmeisesti Apple TV:tä varten, logistisesti monumentaalinen tehtävä, ei pidetty kohtuuttoman vaikeana mittakaavasta huolimatta.

Ironista kyllä, vaikka suuri osa Internetin mediasisällöstä joutuisi koodaamaan uudelleen muotoon, joka vastustaa koulutusta, rajoitettu määrä vaikutusvaltaisia ​​tietokonenäön tietojoukkoja pysyisi ennallaan. Oletettavasti järjestelmät, jotka käyttävät niitä alkupään datana, alkaisivat kuitenkin heiketä tulosteen laadultaan, koska vesileimattu sisältö häiritsisi arkkitehtuurien muunnosprosesseja.

Poliittinen konflikti

Poliittisella tasolla vallitsee ilmeinen jännitys hallitusten päättäväisyyden välillä olla jäämättä jälkeen tekoälykehityksessä ja tehdä myönnytyksiä julkiselle huolelle avoimesti saatavilla olevan ääni-, video- ja kuvasisällön ad hoc -käytöstä Internetissä runsaana resurssina. transformatiivisiin tekoälyjärjestelmiin.

Virallisesti länsimaiset hallitukset ovat taipuvaisia ​​suvaitsemaan tietokonenäön tutkimussektorin kykyä hyödyntää julkisesti saatavilla olevia tiedotusvälineitä, ei vähiten siksi, että joillakin itsevaltaisemmilla Aasian mailla on paljon enemmän liikkumavaraa kehittää kehitystyönkulkuaan siten, että hyödyttää heidän omia tutkimusponnistelujaan – vain yksi niistä tekijöistä viittaa siihen, että Kiinasta on tulossa maailman johtava tekoäly.

Huhtikuussa 2022 Yhdysvaltain muutoksenhakutuomioistuin vahvisti että julkiset verkkotiedot ovat tutkimustarkoituksiin reilua peliä huolimatta LinkedInin jatkuvista protesteista, jotka toiveet sen käyttäjäprofiilit on suojattava tällaisilta prosesseilta.

Jos tekoälynkestävästä kuvasta ei siksi tule järjestelmänlaajuista standardia, mikään ei estä joitakin tärkeimpiä koulutusdatan lähteitä ottamasta käyttöön tällaisia ​​järjestelmiä, jolloin niiden oma tulos tulee tuottamattomaksi piilevässä tilassa.

Olennainen tekijä tällaisissa yrityskohtaisissa käyttöönotoissa on, että kuvien tulee olla synnynnäisesti vastustuskykyinen koulutukseen. Blockchain-pohjaiset alkuperätekniikat ja liikkeet, kuten Sisällön aitous -aloite, ovat enemmän kiinnostuneita todistamaan, että kuva on väärennetty tai "tyyliGANoitu", sen sijaan, että estetään mekanismeja, jotka tekevät tällaiset muunnokset mahdollisiksi.

Satunnainen tarkastus

Vaikka on esitetty ehdotuksia lohkoketjumenetelmien käyttämisestä sellaisen lähdekuvan todellisen alkuperän ja ulkonäön todentamiseksi, joka on saatettu myöhemmin sisällytetty koulutustietoaineistoon, tämä ei sinänsä estä kuvien harjoittelua tai tarjoa keinoa todistaa, tällaisten järjestelmien tuloksista, että kuvat sisällytettiin harjoitustietoaineistoon.

Kuvien poissulkemiseen koulutuksesta vesileimauksessa olisi tärkeää olla luottamatta siihen, että vaikutusvaltaisen tietojoukon lähdekuvia on julkisesti saatavilla tarkastettavaksi. Vastauksena taiteilijoiden huudot Stable Diffusionin vapaamielisyydestä heidän työssään, verkkosivustolla haveibeentrained.com avulla käyttäjät voivat ladata kuvia ja tarkistaa, onko ne todennäköisesti sisällytetty LAION5B Tietojoukko, joka toimii vakaana diffuusiona:

"Lenna", kirjaimellisesti tietokonenäkötutkimuksen julistetyttö viime aikoihin asti, on varmasti mukana Stable Diffusionissa. Lähde: https://haveibeentrained.com/

"Lenna", kirjaimellisesti tietokonenäkötutkimuksen julistetyttö viime aikoihin asti, on varmasti mukana Stable Diffusionissa. Lähde: https://haveibeentrained.com/

Kuitenkin melkein kaikki perinteiset syväväärennöstietojoukot esimerkiksi poimitaan satunnaisesti netistä poimituista videoista ja kuvista ei-julkisiin tietokantoihin, joissa vain jonkinlainen hermostonkestävä vesileima voisi mahdollisesti paljastaa tiettyjen kuvien käytön johdettujen kuvien luomisessa. ja video.

Lisäksi Stable Diffusion -käyttäjät ovat alkaneet lisätä sisältöä – joko hienosäädöllä (jatkoa virallisen mallin tarkistuspisteen koulutusta lisäkuva-/teksti-pareilla) tai Textual Inversion, joka lisää yhden tietyn elementin tai henkilön – joka ei näy missään. hae LAIONin miljardeista kuvista.

Vesileimojen upottaminen lähteeseen

Vielä äärimmäisempi mahdollinen lähdekuvan vesileiman sovellus on hämärän ja epäselvän tiedon sisällyttäminen kaupallisten kameroiden raakakaappaustulokseen, videoon tai kuviin. Vaikka konseptia kokeiltiin ja jopa otettiin käyttöön tarmokkaasti 2000-luvun alussa vastauksena nousevaan multimediapiratismin "uhaan", periaate soveltuu teknisesti myös mediasisällön tekemiseen koneoppimiskoulutukselle vastustuskykyiseksi tai hylkiväksi. järjestelmät.

Yksi 1990-luvun lopun patenttihakemuksessa esitetty toteutus ehdotti käyttöä Diskreetti kosinimuunnos upottaa steganografisia "alikuvia" videoon ja still-kuviin, mikä viittaa siihen, että rutiini voitaisiin "sisällyttää digitaalisten tallennuslaitteiden, kuten still- ja videokameroiden, sisäänrakennetuksi ominaisuudeksi".

1990-luvun lopulla tehdyssä patenttihakemuksessa Lenna on täynnä okkulttisia vesileimoja, jotka voidaan palauttaa tarpeen mukaan. Lähde: https://www.freepatentsonline.com/6983057.pdf

1990-luvun lopulla tehdyssä patenttihakemuksessa Lenna on täynnä okkulttisia vesileimoja, jotka voidaan ottaa talteen tarpeen mukaan. Lähde: https://www.freepatentsonline.com/6983057.pdf

Vähemmän kehittynyt lähestymistapa on asettaa kuviin selkeästi näkyviä vesileimoja laitetasolla – ominaisuus, joka ei houkuttele useimpia käyttäjiä ja joka on tarpeeton taiteilijoille ja median ammattilaisille, jotka pystyvät suojaamaan lähdetietoja ja lisäämään tällaisia ​​brändäyksiä tai kieltoja parhaaksi katsomallaan tavalla (etenkin osakekuvayhtiöt).

Vaikka ainakin yksi kamera mahdollistaa tällä hetkellä valinnaisen logopohjaisen vesileiman asettamisen signaali luvattomasta käytöstä johdetussa tekoälymallissa logon poistaminen tekoälyn kautta on tulossa aika triviaalia, Ja jopa satunnaisesti kaupallistettu.

 

Julkaistu ensimmäisen kerran 25.