stub Lorgairean Deepfake an tòir air talamh ùr: modalan sgaoilidh falaichte agus GANan - Unite.AI
Ceangal leinn

Artificial Intelligence

Lorgairean Deepfake an tòir air talamh ùr: modalan sgaoilidh falaichte agus GAN

mm
Ùraichte on

Beachd   O chionn ghoirid, tha a’ choimhearsnachd rannsachaidh lorg deepfake, a tha air a bhith a’ fuireach cha mhòr a-mhàin leis a’ choimhearsnachd bho dheireadh 2017. fèin-chòdaiche- frèam stèidhichte a nochd an toiseach aig an àm sin gu iongnadh poblach (agus diombach), air tòiseachadh a’ gabhail ùidh forensic ann an ailtireachd nach eil cho stagnant, a’ gabhail a-steach sgaoileadh falaichte modailean mar DALL-E2 agus Sgaoileadh seasmhach, a bharrachd air toradh Lìonraidhean Adversarial Generative (GANs). Mar eisimpleir, san Ògmhios, UC Berkeley dh'fhoillsich e na toraidhean den rannsachadh aige air leasachadh lorgaire airson toradh an DALL-E 2 aig an robh làmh an uachdair.

Is e an rud a tha coltach a bhith a’ stiùireadh an ùidh fhàsmhor seo an leum mean-fhàs gu h-obann ann an comas agus cothrom air modalan sgaoilidh falaichte ann an 2022, leis an stòr dùinte agus ruigsinneachd cuibhrichte. release de DALL-E 2 as t-earrach, air a leantainn aig deireadh an t-samhraidh leis an fhaireachdainn lorg fosgailte of Stable Difusion by seasmhachd.ai.

Tha GANs cuideachd air a bhith fad-sgrùdadh sa cho-theacsa seo, ged nach eil e cho dian, bhon a tha e glè dhuilich a bhith gan cleachdadh airson ath-aithrisean stèidhichte air bhidio de dhaoine a tha cinnteach agus toinnte; co-dhiù, an taca ris na pacaidean autoencoder so-ruigsinneach mar Atharrachadh aghaidh agus DeepFaceLab - agus co-ogha sruthadh beò an tè mu dheireadh, DeepFaceLive.

Dealbhan gluasadach

Anns gach suidheachadh, tha e coltach gur e am bàillidh galvanachaidh an dùil sprint leasachaidh às deidh sin bhidio sintéise. Bha toiseach an Dàmhair - agus prìomh sheusan co-labhairt 2022 - air a chomharrachadh le maoim-slèibhe de fhuasglaidhean gu h-obann agus ris nach robh dùil air grunn bhugbears synthesis bhidio: cha robh Facebook air a bhith ann roimhe seo. samples air an leigeil ma sgaoil den àrd-ùrlar teacsa-gu-bhidio aige fhèin, na rinn Google Research a’ chiad chliù sin gu sgiobalta le bhith ag ainmeachadh an ailtireachd ùr Imagen-to-Video T2V aige, a tha comasach air toradh a thoirt a-mach. fiolm àrd-rèiteachaidh (ged a-mhàin tro lìonra 7-còmhdach de luchd-àrdachaidh).

Ma tha thu a’ creidsinn gu bheil an seòrsa rud seo a’ tighinn ann an triùir, smaoinich cuideachd air gealltanas enigmatic seasmhachd.ai gu bheil ‘bhidio a’ tighinn ’gu Stable Diffusion, a rèir choltais nas fhaide air adhart am-bliadhna, fhad ‘s a tha co-leasaiche Stable Diffusion Runway air. rinn an aon ghealladh, ged nach eil e soilleir a bheil iad a’ toirt iomradh air an aon siostam. Tha an Teachdaireachd discord gheall Ceannard Stability, Emad Mostaque, cuideachd 'claisneachd, bhidio [agus] 3d'.

Dè le tairgse a-mach às a’ ghorm de ghrunnan ùra frèamaichean gineadh claisneachd (cuid stèidhichte air sgaoileadh falaichte), agus modal sgaoilidh ùr as urrainn gineadh gluasad caractar dearbhte, am beachd gum bi frèaman ‘statach’ leithid GANs agus diffusers mu dheireadh a’ gabhail an àite mar thaic leasachan gu frèaman beothalachd taobh a-muigh a’ tòiseachadh a’ faighinn fìor tharraing.

Ann an ùine ghoirid, tha e coltach gu bheil saoghal hamstrung de deepfakes bhidio stèidhichte air autoencoder, nach urrainn ach gu h-èifeachdach a chuir an àite an pàirt meadhanach den aghaidh, a dh’ fhaodadh a bhith aig an àm seo an ath-bhliadhna le ginealach ùr de theicneòlasan domhainn-comas stèidhichte air sgaoileadh - dòighean-obrach fosgailte, mòr-chòrdte a dh’ fhaodadh a bhith a ’falach chan e a-mhàin cuirp iomlan, ach seallaidhean slàn.

Air an adhbhar seo, is dòcha, tha a’ choimhearsnachd rannsachaidh an-aghaidh domhainn a’ tòiseachadh a’ toirt aire dha-rìribh do shìneadh ìomhaighean, agus a’ tuigsinn gum faodadh e barrachd chrìochan a thoirt seachad na bhith a’ gineadh dealbhan pròifil LinkedIn meallta; agus ma tha na h-àiteachan falaichte do-ruigsinneach aca uile comasach air coileanadh a thaobh gluasad ùineail is e sin a bhith mar neach-tairgse inneach fìor mhath, is dòcha gu bheil sin nas motha na gu leòr.

Blade Runner

Is e an dà phàipear as ùire airson dèiligeadh, fa leth, sgaoileadh falaichte agus lorg deepfake stèidhichte air GAN, fa leth, DE-FAKE: A’ lorg agus a’ cur an cèill ìomhaighean meallta air an gineadh le modalan sgaoilidh teacsa-gu-ìomhaigh, co-obrachadh eadar Ionad Helmholtz CISPA airson Tèarainteachd Fiosrachaidh agus Salesforce; agus BLADERUNNER: Frith-thomhas luath airson aghaidhean stoidhle Synthetic (air a ghineadh le AI)., bho Adam Dorian Wong aig obair-lann Lincoln aig MIT.

Mus mìnich e an dòigh ùr aige, bheir am pàipear mu dheireadh beagan ùine sgrùdadh a dhèanamh air dòighean-obrach a bh’ ann roimhe gus faighinn a-mach an deach ìomhaigh a chruthachadh le GAN (tha am pàipear a’ dèiligeadh gu sònraichte ri teaghlach StyleGAN aig NVIDIA).

Tha an dòigh 'Brady Bunch' - 's dòcha a iomradh gun chiall do dhuine sam bith nach robh a’ coimhead Tbh anns na 1970n, no a chaill atharrachaidhean film bho na 1990n - a’ comharrachadh susbaint GAN-faked stèidhichte air na suidheachaidhean stèidhichte a tha pàirtean sònraichte de aghaidh GAN cinnteach a bhith a’ fuireach, air sgàth adhbhar agus nàdar teamplaid an 'pròiseas riochdachaidh'.

An dòigh ‘Brady Bunch’ air a mholadh le craoladh-lìn bho institiud SANS ann an 2022: nì gineadair aghaidh stèidhichte air GAN suidheachadh neo-choltach air cuid de fheartan aghaidh, a’ creidsinn cò às a thàinig an dealbh, ann an cuid de chùisean. Stòr: https://arxiv.org/ftp/arxiv/papers/2210/2210.06587.pdf

An dòigh ‘Brady Bunch’ air a mholadh le craoladh-lìn bho institiud SANS ann an 2022: nì gineadair aghaidh stèidhichte air GAN suidheachadh neo-choltach air cuid de fheartan aghaidh, a’ creidsinn cò às a thàinig an dealbh, ann an cuid de chùisean. Stòr: https://arxiv.org/ftp/arxiv/papers/2210/2210.06587.pdf

Is e comharradh feumail eile a tha aithnichte gu bheil StyleGAN gu tric neo-chomas iomadh aghaidh a thoirt seachad (a’ chiad ìomhaigh gu h-ìosal), ma tha sin riatanach, a bharrachd air an dìth tàlant ann an co-òrdanachadh accessory (dealbh meadhanach gu h-ìosal), agus dualtach loidhne fuilt a chleachdadh mar thoiseach tòiseachaidh gun dàil ad (an treas dealbh gu h-ìosal).

Is e an treas dòigh air am bi an neach-rannsachaidh a’ tarraing aire ath-chòmhdach dealbh (tha eisimpleir dhiubh ri fhaicinn ann an an artaigil againn san Lùnastal air breithneachadh le taic AI air eas-òrdughan slàinte inntinn), a bhios a’ cleachdadh bathar-bog ‘measgachadh ìomhaighean’ mar an t-sreath CombineZ gus grunn ìomhaighean a cho-chruinneachadh gu aon ìomhaigh, gu tric a’ nochdadh bun-stèidh cumanta ann an structar - comharra a dh’ fhaodadh a bhith ann de synthesis.

Is e tiotal an ailtireachd a thathar a’ moladh sa phàipear ùr (is dòcha an aghaidh a h-uile comhairle SEO) Blade Runner, a' toirt iomradh air an Deuchainn voight-Kampff a bhios a’ dearbhadh a bheil antagonists anns a’ chòrachd sci-fi ‘meallta’ no nach eil.

Tha an loidhne-phìoban air a dhèanamh suas de dhà ìre, agus is e a’ chiad fhear an anailisiche PapersPlease, as urrainn measadh a dhèanamh air dàta a chaidh a sgrìobadh bho làraich-lìn GAN-face aithnichte leithid thispersondoesnotexist.com, no generated.photos.

Ged a dh’ fhaodar dreach gearraichte den chòd a sgrùdadh aig GitHub (faic gu h-ìosal) chan eil mòran mion-fhiosrachaidh air a thoirt seachad mun mhodal seo, ach a-mhàin OpenCV agus DLIB air an cleachdadh gus aghaidhean a mhìneachadh agus a lorg anns an stuth cruinnichte.

Is e an dàrna modal an Am measg lorgair. Tha an siostam air a dhealbhadh gus suidheachadh sùla co-òrdanaichte a lorg ann an dealbhan, feart leantainneach de thoradh aghaidh StyleGAN, air a chomharrachadh anns an t-suidheachadh ‘Brady Bunch’ air a mhìneachadh gu h-àrd. Tha AmongUs air a stiùireadh le lorgaire comharra-tìre àbhaisteach 68.

Notaichean puing aghaidh tron ​​​​Bhuidheann Tuigse Giùlan Inntleachdail (IBUG), aig a bheil an còd dealbhaidh comharra-tìre aghaidh air a chleachdadh ann am pasgan Blade Runner.

Notaichean puing aghaidh tron ​​​​Bhuidheann Tuigse Giùlan Inntleachdail (IBUG), aig a bheil an còd dealbhaidh comharra-tìre aghaidh air a chleachdadh ann am pasgan Blade Runner.

Tha AmongUs an urra ri comharran-tìre ro-thrèanadh stèidhichte air na co-chomharran aithnichte ‘Brady bunch’ bho PapersPlease, agus thathar an dùil a chleachdadh an aghaidh sampallan beò, aghaidh-lìn de dhealbhan aghaidh stèidhichte air StyleGAN.

Tha Blade Runner, tha an t-ùghdar a’ moladh, na fhuasgladh plug-and-play airson companaidhean no buidhnean aig nach eil goireasan gus fuasglaidhean in-thaigh a leasachadh airson an seòrsa lorg deepfake ris an tèid dèiligeadh an seo, agus ‘stad-beàrn gus ùine a cheannach airson. frith-bheartan nas seasmhaiche'.

Gu dearbh, ann an roinn tèarainteachd a tha luaineach agus a’ fàs gu luath, chan eil mòran ann a dh’aona-ghnothach or fuasglaidhean reiceadair sgòthan taobh a-muigh an raca ris am faod companaidh le goireasan gann tionndadh thuige le misneachd.

Ged a tha Blade Runner a’ coileanadh gu dona na aghaidh sealltuinn Daoine faked StyleGAN, is e duilgheadas gu math cumanta a tha seo thar siostaman coltach ris, a thathas an dùil a bhith comasach air mìneachadh sùla a mheasadh mar phrìomh phuingean fiosrachaidh, falaichte ann an cùisean mar sin.

Tha dreach nas lugha de Blade Runner air a bhith sgaoileadh gus stòr fhosgladh air GitHub. Tha dreach seilbh nas beairtiche de fheartan ann, as urrainn grunn dhealbhan a phròiseasadh, seach an aon dealbh airson gach gnìomhachd den stòr fosgailte. Tha an t-ùghdar an dùil, tha e ag ràdh, an dreach GitHub ùrachadh chun aon ìre mu dheireadh, mar a cheadaicheas ùine. Tha e cuideachd ag aideachadh gu bheil coltas ann gun tig StyleGAN air adhart nas fhaide na na laigsean aithnichte no làithreach aige, agus gum feum am bathar-bog leasachadh còmhla.

DE-FAKE

Tha ailtireachd DE-FAKE ag amas chan ann a-mhàin air ‘lorg uile-choitcheann’ a choileanadh airson ìomhaighean air an toirt a-mach le modalan sgaoilidh teacsa-gu-ìomhaigh, ach gus dòigh a thoirt seachad airson aithneachadh. a tha a ' Thug modail sgaoilidh falaichte (LD) an ìomhaigh gu buil.

Tha am frèam lorgaidh uile-choitcheann ann an DE-FAKE a’ dèiligeadh ri ìomhaighean ionadail, frèam tar-chinealach (uaine), agus ìomhaighean saoghal fosgailte (gorm). Stòr: http://export.arxiv.org/pdf/2210.06998

Tha am frèam lorgaidh uile-choitcheann ann an DE-FAKE a’ dèiligeadh ri ìomhaighean ionadail, frèam tar-chinealach (uaine), agus ìomhaighean saoghal fosgailte (gorm). Stòr: http://export.arxiv.org/pdf/2210.06998

Gus a bhith onarach, aig an àm seo, is e obair gu math furasta a tha seo, leis gu bheil feartan sònraichte sònraichte aig a h-uile modal LD ​​mòr-chòrdte - dùinte no fosgailte.

A bharrachd air an sin, tha cuid de laigsean cumanta aig a’ mhòr-chuid, leithid an dùil cinn a ghearradh dheth, air sgàth an dòigh neo-riaghailteach gu bheil ìomhaighean neo-ceàrnagach air an sgrìobadh air an lìon air an toirt a-steach do na stòran-dàta mòra a bheir cumhachd do shiostaman leithid DALL-E 2, Stable Diffusion agus MidJourney:

Feumaidh modalan sgaoilidh falaichte, mar a tha a h-uile modal lèirsinn coimpiutair, cuir a-steach cruth ceàrnagach; ach chan eil an sgrìobadh lìn iomlan a tha a’ connadh an t-seata LAION5B a’ toirt seachad ‘sòghalachd a bharrachd’ leithid an comas aithneachadh agus fòcas a chuir air aghaidhean (no rud sam bith eile), agus a’ gearradh sìos ìomhaighean gu brùideil an àite a bhith gan lìonadh (a chumadh an stòr gu lèir). ìomhaigh, ach aig rùn nas ìsle). Aon uair ‘s gu bheil iad air an trèanadh, bidh na ‘bàrr’ sin air an gnàthachadh, agus glè thric bidh iad a’ nochdadh ann an toradh siostaman sgaoilidh falaichte leithid Stable Diffusion. Stòran: https://blog.novelai.net/novelai-improvements-on-stable-diffusion-e10d38db82ac agus Stable Diffusion.

Feumaidh modalan sgaoilidh falaichte, mar a tha a h-uile modal lèirsinn coimpiutair, cuir a-steach cruth ceàrnagach; ach chan eil an sgrìobadh lìn iomlan a tha a’ connadh an t-seata LAION5B a’ toirt seachad ‘sòghalachd a bharrachd’ leithid an comas aithneachadh agus fòcas a chuir air aghaidhean (no rud sam bith eile), agus a’ gearradh sìos ìomhaighean gu brùideil an àite a bhith gan lìonadh (a chumadh an stòr gu lèir). ìomhaigh, ach aig rùn nas ìsle). Aon uair ‘s gu bheil iad air an trèanadh, bidh na ‘bàrr’ sin air an gnàthachadh, agus glè thric bidh iad a’ nochdadh ann an toradh siostaman sgaoilidh falaichte leithid Stable Diffusion. Stòran: https://blog.novelai.net/novelai-improvements-on-stable-diffusion-e10d38db82ac agus Stable Diffusion.

Tha DE-FAKE an dùil a bhith na algorithm-agnostic, amas air a bheil mòran spèis aig luchd-rannsachaidh autoencoder anti-deepfake, agus, an-dràsta, fear a ghabhas coileanadh a thaobh siostaman LD.

Bidh an ailtireachd a’ cleachdadh Pretraining Language-Image Contrastive OpenAI (CLIP) leabharlann ioma-mhodhail - eileamaid riatanach ann an Stable Difffusion, agus a tha gu luath a’ fàs aig cridhe na tonn ùr de shiostaman synthesis ìomhaigh / bhidio - mar dhòigh air greimeachadh a thoirt a-mach à ìomhaighean LD ‘forged’ agus clasifier a thrèanadh air na pàtrain agus na clasaichean a chaidh fhaicinn.

Ann an suidheachadh nas ‘bogsa dubh’, far a bheil na pìosan PNG a tha a’ cumail fiosrachadh mun phròiseas gineadh air a bhith air an toirt air falbh o chionn fhada le bhith a’ luchdachadh suas pròiseasan agus airson adhbharan eile, bidh an luchd-rannsachaidh a’ cleachdadh an Salesforce. frèam BLIP (cuideachd na phàirt ann an co-dhiù aon sgaoileadh Stable Diffusion) gus na h-ìomhaighean a sgrùdadh gu ‘dall’ airson structar semantach nan brosnachaidhean a chruthaich iad.

Chleachd an luchd-rannsachaidh Stable Diffusion, Latent Diffusion (tha e fhèin na thoradh air leth), GLIDE agus DALL-E 2 gus stòr-dàta trèanaidh is deuchainn a chruinneachadh a’ lughdachadh MSCOCO agus Flickr30k.

Chleachd an luchd-rannsachaidh Stable Diffusion, Latent Diffusion (tha e fhèin na thoradh air leth), GLIDE agus DALL-E 2 gus stòr-dàta trèanaidh is deuchainn a chruinneachadh a’ lughdachadh MSCOCO agus Flickr30k.

Mar as trice bheireadh sinn sùil gu math farsaing air toraidhean dheuchainnean an luchd-rannsachaidh airson frèam ùr; ach ann an da-rìribh, tha coltas ann gum bi co-dhùnaidhean DE-FAKE nas fheumaile mar shlat-tomhais airson ath-aithrisean nas fhaide air adhart agus pròiseactan coltach ris, seach mar mheatrach brìoghmhor de shoirbheachas pròiseict, a’ beachdachadh air an àrainneachd luaineach anns a bheil e ag obair, agus gu bheil an siostam ann. Tha e faisg air trì bliadhna a dh’ aois a’ farpais na aghaidh ann an deuchainnean a’ phàipeir – bho air ais nuair a bha an t-sealladh synthesis de dhealbhan dha-rìribh nas ùire.

Dà ìomhaigh air an taobh chlì: thàinig am frèam roimhe ‘dùbhlanach’, a thàinig bho thùs ann an 2019, a rèir coltais chan eil e cho math an aghaidh DE-FAKE (an dà ìomhaigh as fhaide air falbh) thairis air na ceithir siostaman LD a chaidh a dhearbhadh.

Dà ìomhaigh air an taobh chlì: thàinig am frèam ro-làimh ‘dùbhlanach’, ann an 2019, a rèir coltais nach robh cho math an aghaidh DE-FAKE (an dà ìomhaigh as fhaide air falbh) thairis air na ceithir siostaman LD a chaidh a dhearbhadh.

Tha toraidhean na sgioba air leth dòchasach airson dà adhbhar: chan eil mòran obrach ann roimhe airson coimeas a dhèanamh eadar iad (agus chan eil gin idir a tha a’ tabhann coimeas cothromach, ie, a tha a’ còmhdach dìreach dusan seachdain bho chaidh Stable Diffusion a leigeil ma sgaoil gu stòr fosgailte).

San dàrna h-àite, mar a chaidh ainmeachadh gu h-àrd, ged a tha an raon synthesis ìomhaigh LD a’ leasachadh aig astar luath, tha susbaint toraidh nan tairgsean gnàthach gu h-èifeachdach ga chomharrachadh fhèin le bhith ag adhbhrachadh na h-uireasbhaidhean agus na h-uireasbhaidhean structarail aige fhèin (agus gu math ro-innseach) - mòran dhiubh dualtach a bhith air an leigheas, ann an cùis Stable Diffusion co-dhiù, le bhith a’ leigeil a-mach an àite-seicidh 1.5 a tha a’ coileanadh nas fheàrr (ie am modail le trèanadh 4GB a’ toirt cumhachd don t-siostam).

Aig an aon àm, tha Seasmhachd air innse mar-thà gu bheil clàr-rathaid soilleir aige airson V2 agus V3 den t-siostam. Leis na prìomh thachartasan tarraingeach anns na trì mìosan a dh’ fhalbh, tha coltas ann gun deach torpors corporra sam bith bho OpenAI agus cluicheadairean farpaiseach eile ann an àite synthesis ìomhaighean a ghluasad, a’ ciallachadh gum faod sinn a bhith an dùil ri adhartas luath san aon dòigh. àite synthesis ìomhaigh stòr dùinte.

 

Air fhoillseachadh an toiseach air 14 Dàmhair 2022.