Yapay Zeka
Deepfake ve Görüntü Sentez Sistemlerinde Kullanılmaya Karşı Görüntüleri Kodlama

Büyüyen deepfake karşıtı araştırma sektöründe en iyi bilinen araştırma alanı, video ve görüntü içeriğindeki deepfake, sentezlenmiş veya başka şekilde sahte ya da 'düzenlenmiş' yüzlerin eserlerini veya diğer sözde ayırt edici özelliklerini tanıyabilen sistemleri içeriyor.
Bu tür yaklaşımlar, aşağıdakiler de dahil olmak üzere çeşitli taktikler kullanır: derinlik algılama, video düzenliliği bozulması, monitör aydınlatmasındaki farklılıklar (potansiyel olarak derin sahte canlı görüntülü aramalarda), biyometrik özellikler, dış yüz bölgeleriVe hatta gizli güçler insan bilinçaltı sisteminden.
Bu ve benzeri yöntemlerin ortak noktası, konuşlandırıldıkları zaman, savaştıkları merkezi mekanizmaların web'den alınan binlerce veya yüz binlerce görüntü üzerinde başarılı bir şekilde eğitilmiş olmasıdır; bu görüntülerden otokodlayıcı sistemler kolayca temel özellikleri türetebilir ve video görüntülerine veya sentezlenmiş görüntülere doğru bir şekilde sahte bir kimlik yükleyebilen modeller oluşturabilir; hatta gerçek zamanda.
Kısacası, bu tür sistemler aktif hale geldiğinde, at çoktan kaçmıştır.
Deepfake/Sentez Mimarilerine Düşman Olan Görseller
daha fazla önleyici Deepfake ve görüntü sentezi tehdidine karşı tutum, bu sektörde daha az bilinen bir araştırma dizisi, tüm bu kaynak fotoğrafları oluşturmanın doğasında var olan olasılıkları içeriyor düşmanca AI görüntü sentez sistemlerine doğru, genellikle algılanamaz veya zar zor algılanabilir şekillerde.
Örnekleri arasında Sahte Etiketleyici, ABD ve Asya'daki çeşitli kurumların mesajları resimlere kodlayan bir 2021 önerisi; bu kodlamalar genelleştirme sürecine dirençlidir ve görüntüler web'den alındıktan ve en ünlüsü thispersondoesnotexist.com tarafından somutlaştırılan türde bir Üretken Düşman Ağı'na (GAN) eğitildikten sonra bile daha sonra kurtarılabilir ve onun çok sayıda türev.

FakeTagger, bir GAN eğitilirken genelleme sürecinden sağ çıkabilen bilgileri kodlar ve böylece belirli bir görüntünün sistemin üretken yeteneklerine katkıda bulunup bulunmadığını bilmeyi mümkün kılar. Kaynak: https://arxiv.org/pdf/2009.09869.pdf
ICCV 2021 için benzer şekilde başka bir uluslararası çaba başlatıldı üretken modeller için yapay parmak izleri, (aşağıdaki resme bakınız) StyleGAN2 gibi bir görüntü sentezleme GAN'ının çıktısından kurtarılabilir 'parmak izleri' üretir.

Çeşitli aşırı manipülasyonlar, kırpma ve yüz değiştirme altında bile ProGAN'dan geçirilen parmak izleri kurtarılabilir durumda. Kaynak: https://arxiv.org/pdf/2007.08457.pdf
Bu konseptin diğer yinelemeleri şunları içerir: 2018 projesi IBM'den ve bir dijital filigran düzeni aynı yıl Japonya'dan.
Daha yenilikçi bir 2021 girişim Nanjing Havacılık ve Uzay Bilimleri Üniversitesi'nden araştırmacılar, eğitim görüntülerini yalnızca yetkili sistemlerde etkili bir şekilde eğitilecek şekilde 'şifrelemeye' çalıştılar; ancak genel bir görüntü sentezi eğitim hattında kaynak veri olarak kullanıldığında felaketle sonuçlanacak bir başarısızlıkla sonuçlandılar.
Aslında bu yöntemlerin hepsi steganografi kategorisine girer, ancak her durumda görüntülerdeki benzersiz tanımlama bilgisinin, bir otomatik kodlayıcının veya GAN mimarisinin bu tür parmak izlerini 'gürültü' veya aykırı ve önemsiz veri olarak atması ihtimali olmayacak şekilde, görüntünün o kadar temel bir 'özelliği' olarak kodlanması gerekir; bunun yerine, diğer yüz özellikleriyle birlikte kodlanır.
Aynı zamanda, sürecin, sıradan izleyiciler tarafından kusurlu veya düşük kaliteli olarak algılanacak kadar görüntüyü bozmasına veya başka bir şekilde görsel olarak etkilemesine izin verilmemelidir.
TAFİM
Şimdi, yeni bir Alman araştırma çabası (Münih Teknik Üniversitesi ve Sony Europe RDC Stuttgart'tan), işlenmiş görüntüler üzerinde eğitilen derin sahte modellerin veya StyleGAN tipi çerçevelerin sırasıyla kullanılamaz mavi veya beyaz çıktı üreteceği bir görüntü kodlama tekniği önerdi. .

TAFIM'in düşük seviyeli görüntü bozulmaları, yüz bozulması/değiştirmesinin birkaç olası türünü ele alır, görüntüler üzerinde eğitilen modellerin bozuk çıktı üretmesini zorlar ve yazarlar tarafından DeepFaceLive'ın gerçek zamanlı deepfake akışı gibi gerçek zamanlı senaryolarda bile uygulanabilir olduğu bildirilmiştir. Kaynak: https://arxiv.org/pdf/2112.09151.pdf
MKS kâğıtbaşlıklı TAFIM: Yüz Görüntüsü Manipülasyonlarına Karşı Hedefli Düşman Saldırıları, neredeyse algılanamayan bozulmaları görüntülere kodlamak için bir sinir ağı kullanır. Görüntüler eğitilip bir sentez mimarisine genelleştirildikten sonra, ortaya çıkan model, stil karıştırmada veya doğrudan yüz değiştirmede kullanılırsa giriş kimliği için renksiz çıktı üretecektir.
Web'i Yeniden Kodlamak..?
Ancak bu durumda, bu popüler konseptin son versiyonunun ayrıntılarını ve mimarisini incelemek için burada değiliz, daha ziyade tüm fikrin pratikliğini ele almak için buradayız; özellikle de görüntü sentezi çerçevelerini güçlendirmek için kamuya açık olarak toplanan görüntülerin kullanımıyla ilgili büyüyen tartışma ışığında. Kararlı Difüzyonve müteakip aşağı akış yasal sonuçları ticari yazılım türetme sonunda (en azından bazı yetki alanlarında) AI sentez mimarilerine girmeye karşı yasal korumaya sahip olduğu kanıtlanabilecek içerikten.
Yukarıda açıklanan türden proaktif, kodlamaya dayalı yaklaşımlar hiç de küçük bir maliyet getirmez. En azından, aşağıdakiler gibi standart web tabanlı işleme kitaplıklarına yeni ve genişletilmiş sıkıştırma yordamları yerleştirmeyi içerirler: ImageMagick, çok büyük boyutlu orijinal kullanıcı görüntülerini hafif paylaşım ve ağ dağıtımı için daha uygun optimize edilmiş sürümlere dönüştürmek ve ayrıca kırpma gibi dönüşümleri etkilemek için görevlendirilmiş birçok sosyal medya yükleme arabirimi dahil olmak üzere çok sayıda yükleme işlemine güç sağlar ve diğer artırmalar.
Bunun ortaya çıkardığı temel soru şudur: Böyle bir plan 'ileriye dönük' olarak mı uygulanacak, yoksa onlarca yıldır 'bozulmamış' olarak mevcut olan tarihi medyayı ele alan daha geniş ve geriye dönük bir uygulama mı amaçlanacak?
Netflix gibi platformlar, ters değil daha verimli olabilecek veya kullanıcıya veya sağlayıcıya başka şekillerde fayda sağlayabilecek yeni kodeklerle eski bir kataloğun yeniden kodlanmasının maliyetine; benzer şekilde, YouTube'un geçmiş içeriğini H.264 kodeğine dönüştürmesi, görünüşe göre Apple TV'yi barındırmak içinLojistik açıdan anıtsal bir görev olan , ölçeğine rağmen engelleyici derecede zor görülmedi.
İronik bir şekilde, internetteki medya içeriğinin büyük bir bölümü eğitime direnen bir biçime yeniden kodlanmaya tabi olsa bile, etkili bilgisayarla görme veri setlerinin sınırlı kadrosu etkilenmeyecektir. Ancak, muhtemelen, bunları yukarı akış verisi olarak kullanan sistemlerin çıktı kalitesi düşmeye başlayacaktır, çünkü filigranlı içerik mimarilerin dönüşüm süreçlerine müdahale edecektir.
Siyasi Çatışma
Politik terimlerle, hükümetlerin yapay zeka geliştirmede geri kalmama kararlılığı ile internette bol miktarda kaynak olarak açıkça mevcut ses, video ve görüntü içeriğinin özel amaçlı kullanımı konusunda kamuoyunun endişelerine taviz verme kararlılığı arasında bariz bir gerilim var. dönüştürücü AI sistemleri için.
Resmi olarak Batılı hükümetler, bilgisayarlı görü araştırma sektörünün kamuya açık medyayı kullanma yeteneği konusunda hoşgörüye eğilimlidirler; özellikle de daha otokratik Asya ülkelerinin bazılarının, geliştirme iş akışlarını şu şekilde şekillendirmek için çok daha fazla hareket alanına sahip olmaları nedeniyle: kendi araştırma çabalarına fayda sağlar - faktörlerden sadece biri Çin'in AI'da küresel lider haline geldiğini öne sürüyor.
2022 yılının Nisan ayında, ABD Temyiz Mahkemesi onayladı LinkedIn'in devam eden protestolarına rağmen, halka açık web verilerinin araştırma amaçları için adil bir oyun olduğu dilek kullanıcı profillerinin bu tür işlemlerden korunması.
Bu nedenle yapay zekaya dayanıklı görüntüler sistem çapında bir standart haline gelmeyecekse, bazı ana eğitim verileri kaynaklarının bu tür sistemleri uygulamasını engelleyecek hiçbir şey yoktur, böylece kendi çıktıları gizli alanda verimsiz hale gelir.
Bu tür şirkete özgü dağıtımlardaki temel faktör, görüntülerin doğuştan dirençli antreman için. Blockchain tabanlı kaynak teknikleri ve aşağıdaki gibi hareketler İçerik Özgünlük Girişimi, bu tür dönüşümleri mümkün kılan mekanizmaları engellemekten ziyade, söz konusu görüntünün sahte olduğunu veya 'styleGANned' edildiğini kanıtlamakla daha fazla ilgileniyorlar.
Rastgele Muayene
Daha sonra bir eğitim veri setine alınmış olabilecek bir kaynak görüntünün gerçek kaynağını ve görünümünü doğrulamak için blockchain yöntemlerini kullanmak için öneriler sunulmuş olsa da, bu tek başına görüntülerin eğitilmesini engellemez veya kanıtlamanın herhangi bir yolunu sağlamaz. Bu tür sistemlerin çıktılarından, görüntülerin eğitim veri setine dahil edilmesi.
Görüntüleri eğitimden hariç tutmaya yönelik bir damgalama yaklaşımında, inceleme için halka açık olan etkili bir veri kümesinin kaynak görüntülerine güvenmemek önemli olacaktır. Cevap olarak sanatçıların haykırışları Stable Diffusion'ın çalışmalarını cömertçe tüketmesi hakkında, web sitesi haveibeentrained.com kullanıcıların görüntüleri yüklemesine ve muhtemelen dahil edilip edilmediklerini kontrol etmesine olanak tanır. LAION5B Kararlı Difüzyona güç veren veri kümesi:

Yakın zamana kadar bilgisayarlı görüş araştırmalarının simgesi haline gelen 'Lenna', Kararlı Yayılım'a kesinlikle katkıda bulunuyor. Kaynak: https://haveibeentrained.com/
Bununla birlikte, örneğin, neredeyse tüm geleneksel deepfake veri kümeleri, internetteki video ve görüntülerden, yalnızca bir tür nöral olarak dirençli filigranlamanın türetilmiş görüntüleri oluşturmak için belirli görüntülerin kullanımını ortaya çıkarabileceği halka açık olmayan veritabanlarına rastgele çekilir. ve video.
Ayrıca, Stable Diffusion kullanıcıları, LAION'un milyarlarca görseli arasında yapılan hiçbir aramada görünmeyecek içerikleri eklemeye başlıyorlar; bu içerikler ya ince ayar (resmi model kontrol noktasının eğitimini ek resim/metin çiftleriyle sürdürme) ya da belirli bir öğe veya kişiyi ekleyen Metinsel Ters Çevirme yoluyla yapılıyor.
Kaynağa Filigran Gömme
Kaynak görüntü filigranlamanın daha da uç bir potansiyel uygulaması, ticari kameraların ham görüntü çıktılarına (video veya görüntüler) belirsiz ve belirgin olmayan bilgiler eklemektir. Bu kavram, 2000'lerin başında, ortaya çıkan multimedya korsanlığı "tehlikesine" bir yanıt olarak denenmiş ve hatta yoğun bir şekilde uygulanmış olsa da, teknik olarak medya içeriğini makine öğrenimi eğitim sistemlerine karşı dirençli veya itici hale getirmek amacıyla da uygulanabilir.
1990'ların sonlarına ait bir patent başvurusunda tartışılan bir uygulama, Ayrık Kosinüs Dönüşümleri steganografik 'alt görüntüleri' video ve hareketsiz görüntülere yerleştirmek, bu rutinin 'hareketsiz ve video kameralar gibi dijital kayıt aygıtları için yerleşik bir özellik olarak dahil edilebileceğini' öne sürüyor.

1990'ların sonlarına ait bir patent başvurusunda Lenna, gerektiğinde düzeltilebilecek gizli filigranlarla doludur. Kaynak: https://www.freepatentsonline.com/6983057.pdf
Daha az karmaşık bir yaklaşım ise cihaz düzeyinde görsellere açıkça görülebilen filigranlar yerleştirmektir. Bu özellik çoğu kullanıcı için cazip değildir ve kaynak verileri koruyabilen ve uygun gördükleri markalama veya yasakları ekleyebilen sanatçılar ve profesyonel medya uygulayıcıları (özellikle stok görsel şirketleri) için gereksizdir.
En azından bir kamera şu anda isteğe bağlı logo tabanlı filigran yerleştirmeye izin veriyor. izinsiz kullanım sinyali türetilmiş bir AI modelinde, AI aracılığıyla logo kaldırma oldukça önemsizVe hatta gelişigüzel ticarileştirilmiş.
İlk olarak 25 Eylül 2022'de yayınlandı.












