Արհեստական բանականություն

Պատկերների կոդավորում՝ ընդդեմ օգտագործման Deepfake և Image Synthesis համակարգերում

Թարմացվել է on Դեկտեմբերի 9, 2022

Հետազոտության ամենահայտնի գիծը աճող հակախորքային հետազոտական հատվածում ներառում է այնպիսի համակարգեր, որոնք կարող են ճանաչել արտեֆակտները կամ խորը կեղծված, սինթեզված կամ այլ կերպ կեղծված կամ «խմբագրված» դեմքերի արտեֆակտները կամ վիդեո և պատկերների բովանդակության մեջ:

Նման մոտեցումները օգտագործում են տարբեր մարտավարություններ, այդ թվում խորության հայտնաբերում, տեսանյութերի կանոնավորության խախտում, մոնիտորի լուսավորության տատանումները (պոտենցիալ խորը կեղծված կենդանի տեսազանգերում), կենսաչափական հատկանիշներ, արտաքին դեմքի շրջաններեւ նույնիսկ թաքնված ուժեր մարդու ենթագիտակցական համակարգի.

Այս և նմանատիպ մեթոդների ընդհանրությունն այն է, որ երբ դրանք գործարկվեն, կենտրոնական մեխանիզմները, որոնց դեմ պայքարում են, արդեն հաջողությամբ ուսուցանվել են հազարավոր կամ հարյուր հազարավոր պատկերների վրա, որոնք քերված են համացանցից. պատկերներ, որոնցից կարող են ինքնակոդավորիչ համակարգերը: հեշտությամբ ձեռք բերեք հիմնական հատկանիշները և ստեղծեք մոդելներ, որոնք կարող են ճշգրիտ կերպով կեղծ ինքնություն պարտադրել տեսանյութերի կամ սինթեզված պատկերների վրա, նույնիսկ իրական ժամանակում.

Մի խոսքով, երբ նման համակարգերն ակտիվ են, ձին արդեն պտտվել է:

Պատկերներ, որոնք թշնամական են Deepfake/Synthesis Architecture-ների նկատմամբ

Ի դեպ ավելի կանխարգելիչ վերաբերմունքը խորը կեղծիքների և պատկերների սինթեզի սպառնալիքին, այս ոլորտում ավելի քիչ հայտնի հետազոտության ուղղությունը ներառում է այդ բոլոր սկզբնաղբյուր լուսանկարների ստեղծմանը բնորոշ հնարավորությունները: անբարյացակամ AI պատկերների սինթեզի համակարգերի նկատմամբ, սովորաբար աննկատ կամ հազիվ նկատելի ձևերով:

Օրինակները ներառում են FakeTagger, 2021 թվականի առաջարկ ԱՄՆ-ի և Ասիայի տարբեր հաստատություններից, որը հաղորդագրությունները կոդավորում է պատկերների մեջ. այս կոդավորումները դիմացկուն են ընդհանրացման գործընթացին և կարող են հետագայում վերականգնվել նույնիսկ այն բանից հետո, երբ պատկերները քերվել են համացանցից և վերապատրաստվել որպես Generative Adversarial Network (GAN) այն տիպի, որն ամենահայտնին մարմնավորում է thispersondoesnotexist.com-ը և դրա բազմաթիվ ածանցյալներ.

FakeTagger-ը կոդավորում է տեղեկատվություն, որը կարող է գոյատևել ընդհանրացման գործընթացում GAN-ի ուսուցման ժամանակ, ինչը հնարավորություն է տալիս իմանալ, թե արդյոք որոշակի պատկերը նպաստում է համակարգի գեներատիվ կարողություններին: Աղբյուր՝ https://arxiv.org/pdf/2009.09869.pdf

ICCV 2021-ի համար նույնպես ևս մեկ միջազգային ջանքեր են ձեռնարկվել արհեստական մատնահետքեր գեներատիվ մոդելների համար, (տես ստորև նկարը), որը կրկին ստեղծում է վերականգնվող «մատնահետքեր» պատկերի սինթեզի GAN-ի արդյունքից, ինչպիսին է StyleGAN2-ը:

Նույնիսկ մի շարք ծայրահեղ մանիպուլյացիաների, կտրելու և դեմքի փոփոխման դեպքում, ProGAN-ով անցած մատնահետքերը մնում են վերականգնելի: Աղբյուր՝ https://arxiv.org/pdf/2007.08457.pdf

Այս հայեցակարգի այլ կրկնությունները ներառում են ա 2018 նախագիծ IBM-ից և ա թվային ջրանիշի սխեման նույն թվականին՝ Ճապոնիայից։

Ավելի նորարարորեն, 2021 թ Նախաձեռնություն Նանջինգի օդագնացության և տիեզերագնացության համալսարանը փորձում էր «գաղտնագրել» ուսումնական պատկերներն այնպես, որ դրանք արդյունավետ կերպով մարզվեն միայն լիազորված համակարգերի վրա, բայց աղետալիորեն ձախողվեն, եթե օգտագործվեն որպես սկզբնաղբյուր տվյալներ ընդհանուր պատկերների սինթեզի ուսումնական խողովակաշարում:

Արդյունավետորեն բոլոր այս մեթոդները պատկանում են ստեգանոգրաֆիայի կատեգորիային, բայց բոլոր դեպքերում պատկերների մեջ առկա եզակի նույնականացման տեղեկատվությունը պետք է կոդավորվի որպես պատկերի այնպիսի էական «հատկանիշ», որ ոչ մի հնարավորություն չկա, որ autoencoder-ը կամ GAN ճարտարապետությունը մերժեն այդպիսին: Մատնահետքերը որպես «աղմուկ» կամ արտասովոր և ոչ էական տվյալներ, այլ ավելի շուտ կոդավորեն այն դեմքի այլ հատկությունների հետ միասին:

Միևնույն ժամանակ, չի կարելի թույլ տալ, որ գործընթացն այնքան աղավաղի կամ տեսողականորեն ազդի պատկերի վրա, որ պատահական դիտողների կողմից այն ընկալվի որպես արատներ կամ ցածր որակ:

ԹԱՖԻՄ

Այժմ գերմանական նոր հետազոտական ջանքերը (Մյունխենի տեխնիկական համալսարանից և Sony Europe RDC Stuttgart-ից) առաջարկել են պատկերների կոդավորման տեխնիկա, որի միջոցով խորը կեղծ մոդելները կամ StyleGAN տիպի շրջանակները, որոնք պատրաստված են մշակված պատկերների վրա, կստեղծեն համապատասխանաբար անօգտագործելի կապույտ կամ սպիտակ արդյունք: .

TAFIM-ի ցածր մակարդակի պատկերների խանգարումները վերաբերում են դեմքի խեղաթյուրման/փոխարինման մի քանի հնարավոր տեսակների՝ ստիպելով պատկերների վրա վարժեցված մոդելներին ստեղծել աղավաղված արդյունք, և հեղինակները հաղորդում են, որ դրանք կիրառելի են նույնիսկ իրական ժամանակի սցենարներում, ինչպիսին է DeepFaceLive-ի իրական ժամանակի խորը կեղծ հոսքը: . Աղբյուր՝ https://arxiv.org/pdf/2112.09151.pdf

TAFIM-ի ցածր մակարդակի պատկերի խանգարումները վերաբերում են դեմքի խեղաթյուրման/փոխարինման մի քանի հնարավոր տեսակների՝ ստիպելով պատկերների վրա վարժեցված մոդելներին աղավաղված արդյունք արտադրել, և հեղինակները հաղորդում են, որ դրանք կիրառելի են նույնիսկ իրական ժամանակի սցենարներում, ինչպիսին է DeepFaceLive-ի իրական ժամանակի խորը կեղծ հոսքը: . Աղբյուր՝ https://arxiv.org/pdf/2112.09151.pdf

The թուղթ, վերնագրով TAFIM. Թիրախային հակառակորդի հարձակումներ դեմքի պատկերի մանիպուլյացիաների դեմ, օգտագործում է նեյրոնային ցանց՝ հազիվ նկատելի շեղումները պատկերների մեջ կոդավորելու համար: Այն բանից հետո, երբ պատկերները վերապատրաստվեն և ընդհանրացվեն սինթեզի ճարտարապետության մեջ, ստացված մոդելը կստեղծի գունաթափված ելք մուտքային նույնականացման համար, եթե օգտագործվի ոճերի խառնման կամ ուղղակի դեմքի փոխանակման մեջ:

TAFIM. Թիրախային հակառակորդի հարձակումներ դեմքի պատկերի մանիպուլյացիաների դեմ (ECCV'22)

TAFIM: Targeted Adversarial Attacks against Face Image Manipulations (ECCV'22)

Watch this video on YouTube

Վերակոդավորվու՞մ եք համացանցը...

Այնուամենայնիվ, այս դեպքում մենք այստեղ չենք ուսումնասիրելու այս հանրաճանաչ հայեցակարգի վերջին տարբերակի մանրուքներն ու ճարտարապետությունը, այլ ավելի շուտ դիտարկելու ամբողջ գաղափարի գործնականությունը, մասնավորապես՝ հանրային օգտագործման վերաբերյալ աճող հակասությունների լույսի ներքո: քերծված պատկերներ՝ պատկերների սինթեզման շրջանակները հզորացնելու համար, ինչպիսիք են Կայուն դիֆուզիոն, և դրա հետագա իրավական հետևանքները առևտրային ծրագրերի ստացում բովանդակությունից, որը կարող է (առնվազն որոշ իրավասություններում) ի վերջո ապացուցել, որ իրավական պաշտպանություն ունի արհեստական ինտելեկտի սինթեզի ճարտարապետություններում ներթափանցումից:

Նախաձեռնող, կոդավորման վրա հիմնված վերը նկարագրված մոտեցումները ոչ փոքր գնով են: Առնվազն, դրանք կներառեն նոր և ընդլայնված սեղմման ռեժիմների ներդրում ստանդարտ վեբ վրա հիմնված մշակման գրադարաններում, ինչպիսիք են. ImageMagick, որոնք ապահովում են բեռնման մեծ թվով գործընթացներ, ներառյալ բազմաթիվ սոցիալական մեդիայի վերբեռնման միջերեսներ, որոնց խնդիրն է վերափոխել չափից ավելի բնօրինակ օգտատերերի պատկերները օպտիմիզացված տարբերակների, որոնք ավելի հարմար են թեթև փոխանակման և ցանցային բաշխման, ինչպես նաև փոխակերպումներ իրականացնելու համար, ինչպիսիք են մշակաբույսերը և այլ ավելացումներ:

Առաջնային հարցն այն է, որ նման սխեման կիրականացվի՞ «առաջ գնալով», թե՞ նախատեսվում է ավելի լայն և հետընթաց տեղակայում, որը կանդրադառնա պատմական լրատվամիջոցներին, որոնք կարող էին հասանելի լինել, «չկոռումպացված» տասնամյակներ շարունակ:

Պլատֆորմներ, ինչպիսիք են Netflix-ը ոչ հակակրանք ետ կատալոգը նոր կոդեկներով վերակոդավորելու հաշվին, որոնք կարող են ավելի արդյունավետ լինել կամ այլ կերպ տրամադրել օգտվողի կամ մատակարարի առավելությունները. նմանապես, YouTube-ի կողմից իր պատմական բովանդակության վերափոխումը H.264 կոդեկի, ըստ երեւույթին Apple TV-ին տեղավորելու համար, նյութատեխնիկական մոնումենտալ առաջադրանքը, չնայած մասշտաբին, չի համարվում արգելող դժվար:

Ճակատագրի հեգնանքով, նույնիսկ եթե համացանցում մեդիա բովանդակության զգալի մասը ենթակա լինի վերակոդավորման այնպիսի ձևաչափի, որը չի դիմանում վերապատրաստմանը, համակարգչային տեսողության ազդեցիկ տվյալների հավաքածուների սահմանափակ կադրեր կմնար անփոփոխ: Այնուամենայնիվ, ենթադրաբար, համակարգերը, որոնք օգտագործում են դրանք որպես վերին հոսքի տվյալներ, կսկսեն նվազել ելքի որակը, քանի որ ջրանիշով պարունակությունը կխանգարի ճարտարապետության փոխակերպման գործընթացներին:

Քաղաքական հակամարտություն

Քաղաքական առումով ակնհայտ լարվածություն կա կառավարությունների՝ արհեստական ինտելեկտի զարգացումից ետ չմնալու և համացանցում բաց հասանելի աուդիո, վիդեո և պատկերային բովանդակության ժամանակավոր օգտագործման առնչությամբ զիջումներ կատարելու վճռականության միջև: փոխակերպվող AI համակարգերի համար:

Պաշտոնապես, արևմտյան կառավարությունները հակված են ներողամիտ լինելու համակարգչային տեսլականի հետազոտության ոլորտի՝ հանրային հասանելի լրատվամիջոցներից օգտվելու կարողության հարցում, հատկապես այն պատճառով, որ որոշ ավելի ինքնակալ ասիական երկրներ ունեն շատ ավելի մեծ ազատություն՝ իրենց զարգացման աշխատանքային հոսքերը ձևավորելու համար։ օգուտներ են բերում իրենց սեփական հետազոտական ջանքերը՝ միայն այն գործոններից մեկը, որը ենթադրում է, որ Չինաստանը դառնում է AI-ի համաշխարհային առաջատարը.

2022 թվականի ապրիլին ԱՄՆ վերաքննիչ դատարանը հաստատեց որ հանրային վեբ տվյալները արդար խաղ են հետազոտական նպատակներով՝ չնայած LinkedIn-ի շարունակվող բողոքներին, որոնք մաղթանքները իր օգտատերերի պրոֆիլները պաշտպանված լինեն նման գործընթացներից:

Հետևաբար, եթե AI-ին դիմացկուն պատկերները չպետք է դառնան ամբողջ համակարգի ստանդարտ, ապա ոչինչ չի խանգարի վերապատրաստման տվյալների որոշ հիմնական աղբյուրներին նման համակարգերի ներդրմանը, որպեսզի իրենց սեփական արդյունքը դառնա անարդյունավետ լատենտ տարածքում:

Ընկերության հատուկ տեղակայման հիմնական գործոնն այն է, որ պատկերները պետք է լինեն բնածին դիմացկուն դեպի մարզումներ։ Բլոկչեյնի վրա հիմնված ծագման տեխնիկան և շարժումները, ինչպիսիք են Բովանդակության իսկության նախաձեռնություն, ավելի շատ մտահոգված են ապացուցելու, որ պատկերը կեղծվել է կամ «styleGANned», այլ ոչ թե կանխել մեխանիզմները, որոնք հնարավոր են դարձնում նման փոխակերպումները:

Պատահական ստուգում

Թեև առաջարկներ են ներկայացվել օգտագործել բլոկչեյն մեթոդները՝ հավաստիացնելու աղբյուրի պատկերի իրական ծագումն ու տեսքը, որը կարող է հետագայում ներթափանցվել ուսումնական տվյալների բազայում, դա ինքնին չի խոչընդոտում պատկերների վերապատրաստմանը կամ ապացուցելու որևէ միջոց. նման համակարգերի ելքից, որ պատկերները ներառված են ուսումնական տվյալների բազայում:

Պատկերները վերապատրաստումից բացառելու ջրանիշի մոտեցման դեպքում կարևոր կլինի չհիմնվել ազդեցիկ տվյալների աղբյուրի պատկերների վրա, որոնք հանրությանը հասանելի են ստուգման համար: Ի պատասխան արվեստագետների բողոքները Stable Diffusion-ի կողմից իրենց աշխատանքի լիբերալ կլանման մասին, կայքը haveibeentrained.com թույլ է տալիս օգտվողներին վերբեռնել պատկերներ և ստուգել, թե արդյոք դրանք ներառված են եղել նկարում LAION5B տվյալների բազա, որն ապահովում է կայուն դիֆուզիոն.

«Լեննան», որը բառացիորեն մինչև վերջերս համակարգչային տեսողության հետազոտության ցուցապաստառ էր, անկասկած, կայուն դիֆուզիոն ներդրող է: Աղբյուր՝ https://haveibeentrained.com/

Այնուամենայնիվ, գրեթե բոլոր ավանդական խորը կեղծ տվյալների հավաքածուները, օրինակ, պատահականորեն վերցված են ինտերնետում արդյունահանված տեսանյութերից և պատկերներից, ոչ հրապարակային տվյալների շտեմարաններում, որտեղ միայն նյարդակայուն ջրային նշանը կարող է բացահայտել հատուկ պատկերների օգտագործումը ստացված պատկերներ ստեղծելու համար: և տեսանյութ։

Ավելին, Stable Diffusion-ի օգտատերերը սկսում են ավելացնել բովանդակություն՝ կա՛մ ճշգրտման միջոցով (շարունակելով պաշտոնական մոդելի անցակետի վերապատրաստումը լրացուցիչ պատկերի/տեքստի զույգերով) կամ «Textual Inversion»-ով, որն ավելացնում է մեկ կոնկրետ տարր կամ անձ, որը չի երևա որևէ մեկում: որոնել LAION-ի միլիարդավոր պատկերները:

Ջրի նիշերի տեղադրում աղբյուրում

Աղբյուրի պատկերների ջրանիշի էլ ավելի ծայրահեղ պոտենցիալ կիրառումը մթագնված և ոչ ակնհայտ տեղեկատվություն ներառելն է առևտրային տեսախցիկների չմշակված նկարահանման արդյունքի, տեսանյութի կամ պատկերների մեջ: Թեև հայեցակարգը փորձարկվեց և նույնիսկ որոշ եռանդով իրականացվեց 2000-ականների սկզբին, որպես պատասխան մուլտիմեդիա ծովահենության առաջացող «սպառնալիքին», սկզբունքը տեխնիկապես կիրառելի է նաև մեդիա բովանդակությունը մեքենայական ուսուցման ուսուցմանը դիմացկուն կամ վանող դարձնելու նպատակով։ համակարգեր։

Մեկ իրականացում, որը ներկայացվել է 1990-ականների վերջին արտոնագրային հայտում, առաջարկվել է օգտագործել Դիսկրետ կոսինուսի փոխակերպումներ ստեգանոգրաֆիկ «ենթապատկերներ» ներդնել տեսանյութերի և անշարժ պատկերների մեջ՝ ենթադրելով, որ ռեժիմը կարող է «ներկառուցվել որպես թվային ձայնագրող սարքերի, ինչպիսիք են անշարժ և տեսախցիկները» ներկառուցված հատկանիշ։

1990-ականների վերջին արտոնագրային հայտում Լեննան ներծծված է գաղտնի ջրանիշերով, որոնք անհրաժեշտության դեպքում կարող են վերականգնվել: Աղբյուր՝ https://www.freepatentsonline.com/6983057.pdf

1990-ականների վերջին արտոնագրային հայտում Լեննան ներծծված է գաղտնի ջրային նշաններով, որոնք անհրաժեշտության դեպքում կարող են վերականգնվել: Աղբյուր՝ https://www.freepatentsonline.com/6983057.pdf

Պակաս բարդ մոտեցում է սարքի մակարդակում պատկերների վրա հստակ տեսանելի ջրանիշներ դնելը. մի հատկություն, որը գրավիչ չէ օգտվողների մեծամասնության համար և ավելորդ է նկարիչների և պրոֆեսիոնալ մեդիա պրակտիկանտների դեպքում, ովքեր ի վիճակի են պաշտպանել աղբյուրի տվյալները և ավելացնել նման բրենդավորում կամ արգելքներ, ինչպես նրանք գտնում են նպատակահարմար (ոչ պակաս, ֆոնդային պատկերային ընկերություններ):

Չնայած գոնե մեկ տեսախցիկ ներկայումս թույլ է տալիս կամընտիր լոգոյի վրա հիմնված ջրանիշի տեղադրում, որը կարող է ազդանշան չթույլատրված օգտագործման մասին Արհեստական ինտելեկտի ածանցյալ մոդելում AI-ի միջոցով լոգոյի հեռացումը դառնում է բավականին տրիվիալԵւ նույնիսկ պատահական առևտրայնացված.

Առաջին անգամ հրապարակվել է 25 թվականի սեպտեմբերի 2022-ին։

Հարակից թեմաներ.առանձնահատկություն պատկերի սինթեզ հետազոտություն Կայուն դիֆուզիոն

Հաջորդը

Խորը ուսուցում ընդդեմ նյարդային ցանցերի

Բաց մի թողեք

Ուղեղի նեյրոհաշվարկային նոր մոդելը կարող է զարգացնել AI հետազոտությունը

Մարտին Անդերսոն

Գրող մեքենայական ուսուցման, արհեստական ինտելեկտի և մեծ տվյալների մասին:
Անձնական կայք. martinanderson.ai
Հետադարձ: [էլեկտրոնային փոստով պաշտպանված]
Twitter՝ @manders_ai

Unite.AI

Պատկերների կոդավորում՝ ընդդեմ օգտագործման Deepfake և Image Synthesis համակարգերում

Արհեստական բանականություն

Պատկերների կոդավորում՝ ընդդեմ օգտագործման Deepfake և Image Synthesis համակարգերում

Բովանդակություն