Bizimle iletişime geçin

Yapay Zeka

Deepfake Dedektörleri Yeni Bir Zemin Peşinde: Gizli Yayılma Modelleri ve GAN'lar

mm

Görüş  

Son zamanlarda, 2017'nin sonlarından beri neredeyse tamamen otomatik kodlayıcıO zamanlar halkın hayranlığına (ve dehşetdahil olmak üzere daha az durgun mimarilere adli ilgi duymaya başlamıştır. gizli difüzyon gibi modeller DALL-E2 ve Kararlı DifüzyonÜretici Düşman Ağlarının (GAN'lar) çıktısının yanı sıra. Örneğin, Haziran ayında UC Berkeley sonuçları yayınladı o zamanlar baskın olan DALL-E 2'nin çıktısı için bir dedektörün geliştirilmesine yönelik araştırmasından.

Bu artan ilgiyi tetikleyen şey, 2022'de kapalı kaynak ve sınırlı erişim ile gizli difüzyon modellerinin yeteneği ve kullanılabilirliğindeki ani evrimsel sıçramadır. serbest İlkbaharda DALL-E 2, ardından yaz sonunda sansasyonel açık kaynak Stabil Difüzyonun Stabil.ai tarafından.

GAN'lar ayrıca uzun süredir çalışılan bu bağlamda, daha az yoğun olmakla birlikte, çok zor insanları ikna edici ve ayrıntılı video tabanlı canlandırmalar için kullanmak; en azından, şimdiye kadar saygıdeğer otomatik kodlayıcı paketleriyle karşılaştırıldığında, örneğin Yüz nakli ve Derin Yüz Laboratuvarı – ve ikincisinin canlı yayın yapan kuzeni, DerinYüzCanlı.

Hareketli Resimler

Her iki durumda da, harekete geçiren faktör, sonraki bir gelişimsel sprint olasılığı gibi görünüyor. video sentez. Ekim ayının başlangıcı ve 2022'nin büyük konferans sezonu, uzun süredir devam eden çeşitli video sentezi sorunlarına yönelik ani ve beklenmedik çözümlerin çığ gibi büyümesiyle karakterize edildi: Facebook'un yayınlanan örnekler kendi metinden videoya platformunun ardından Google Research, çıktı alma yeteneğine sahip yeni Imagen-to-Video T2V mimarisini duyurarak bu ilk beğeniyi çabucak bastırdı. yüksek çözünürlüklü görüntüler (Yalnızca 7 katmanlı bir yükseltme ağı aracılığıyla olsa da).

Eğer bu tür şeylerin üçlü olarak geldiğine inanıyorsanız, stable.ai'nin 'videonun' bu yılın sonlarında Stable Diffusion'a geleceği yönündeki gizemli vaadini de göz önünde bulundurun; Stable Diffusion'ın ortak geliştiricisi Runway ise benzer bir söz verdi, ancak aynı sisteme atıfta bulunup bulunmadıkları belli değil. bu anlaşmazlık mesajı Stability CEO'su Emad Mostaque da söz verdi 'ses, video [ve] 3 boyutlu'.

Birkaç yeni birdenbire sunulan teklifle ne olur? ses oluşturma çerçeveleri (bazıları gizli difüzyona dayalıdır) ve yeni bir difüzyon modeli üretebilir. otantik karakter hareketiGAN'lar ve dağıtıcılar gibi 'statik' çerçevelerin nihayet destekleyici olarak yerini alacağı fikri ekler harici animasyon çerçevelerine geçiş gerçek bir çekiş kazanmaya başlıyor.

Kısacası, otomatik kodlayıcı tabanlı video derin sahtekarlıklarının kısıtlı dünyasının, yalnızca etkili bir şekilde alternatif olarak yerini alabileceği görülüyor. bir yüzün orta kısmı, gelecek yıl bu zamanlar, yeni nesil yayılma tabanlı deepfake özellikli teknolojiler tarafından gölgede bırakılabilir - sadece tüm vücutları değil, tüm sahneleri fotogerçekçi olarak taklit etme potansiyeline sahip popüler, açık kaynak yaklaşımlar.

Bu nedenle, belki de anti-deepfake araştırma topluluğu, görüntü sentezini ciddiye almaya başlıyor ve bunun sadece üretmekten daha fazla amaca hizmet edebileceğini fark ediyor. sahte LinkedIn profil fotoğrafları; ve tüm zorlu gizli uzayları zamansal hareket açısından başarabilirse, gerçekten harika bir doku oluşturucu olarak hareket edin, bu aslında fazlasıyla yeterli olabilir.

Blade Runner

Sırasıyla gizli yayılma ve GAN tabanlı derin sahte algılamayı ele alan en son iki makale, sırasıyla, DE-FAKE: Metinden Görüntüye Difüzyon Modelleriyle Oluşturulan Sahte Görüntülerin Tespiti ve İlişkilendirilmesi, CISPA Helmholtz Bilgi Güvenliği Merkezi ve Salesforce arasındaki bir işbirliği; Ve BLADERUNNER: Sentetik (Yapay Zeka Tarafından Oluşturulan) StyleGAN Yüzler için Hızlı Karşı TedbirMIT Lincoln Laboratuvarı'ndan Adam Dorian Wong'dan.

Yeni yöntemini açıklamadan önce, ikinci makale bir görüntünün GAN tarafından üretilip üretilmediğini belirlemeye yönelik önceki yaklaşımları incelemek için biraz zaman ayırıyor (makale özellikle NVIDIA'nın StyleGAN ailesiyle ilgileniyor).

'Brady Bunch' yöntemi – belki de anlamsız referans 1970'lerde televizyon izlemeyen veya 1990'lardaki film uyarlamalarını kaçıran herkes için – 'üretim sürecinin' ezberlenmiş ve şablona dayalı yapısı nedeniyle, bir GAN yüzünün belirli bölümlerinin kesinlikle işgal edeceği sabit pozisyonlara dayanarak GAN tarafından sahte içerikleri tanımlar.

2022'de SANS enstitüsünden bir web yayınıyla öne sürülen 'Brady Bunch' yöntemi: GAN tabanlı bir yüz oluşturucu, belirli durumlarda, fotoğrafın kaynağına inanarak, belirli yüz özelliklerinin beklenmedik bir şekilde tekdüze yerleşimini gerçekleştirecektir. Kaynak: https://arxiv.org/ftp/arxiv/papers/2210/2210.06587.pdf

SANS Enstitüsü'nün 2022'de yaptığı bir web yayınında ortaya atılan 'Brady Bunch' yöntemi: GAN tabanlı bir yüz üreteci, bazı durumlarda fotoğrafın kökenini yalanlayarak, belirli yüz özelliklerinin inanılmaz derecede düzgün bir şekilde yerleştirilmesini sağlayacak. Kaynak: https://arxiv.org/ftp/arxiv/papers/2210/2210.06587.pdf

Bilinen bir diğer yararlı gösterge ise StyleGAN'ın gerektiğinde birden fazla yüzü işleyememesi (aşağıdaki ilk resim), aksesuar koordinasyonunda yetenek eksikliği (aşağıdaki orta resim) ve doğaçlama bir şapkanın başlangıcı olarak saç çizgisini kullanma eğilimidir (aşağıdaki üçüncü resim).

Araştırmacının dikkat çektiği üçüncü yöntem ise fotoğraf bindirme (bir örneği şurada görülebilir. Ağustos makalemiz (AI destekli zihinsel sağlık bozuklukları tanısı üzerine) CombineZ serisi gibi kompozisyonel 'görüntü harmanlama' yazılımlarını kullanarak birden fazla görüntüyü tek bir görüntüde birleştiriyor ve sıklıkla yapıdaki ortak noktaları ortaya çıkarıyor; bu da sentezin olası bir göstergesi.

Yeni makalede önerilen mimarinin başlığı (muhtemelen tüm SEO tavsiyelerine aykırıdır) Blade Runner, atıfta bulunarak Voight-Kampff testi Bilimkurgu serisindeki düşmanların 'sahte' olup olmadığını belirleyen şey.

İşlem hattı iki aşamadan oluşur; bunlardan ilki, thispersondoesnotexist.com veya oluşturulmuş.fotoğraflar gibi bilinen GAN-face web sitelerinden alınan verileri değerlendirebilen PapersPlease analizcisidir.

Kodun kısaltılmış bir sürümü GitHub'da incelenebilse de (aşağıya bakın), bu modül hakkında OpenCV ve DLIB toplanan malzemedeki yüzleri belirlemek ve tespit etmek için kullanılır.

İkinci modül, Aramızda dedektörü. Sistem, yukarıda ayrıntıları verilen 'Brady Bunch' senaryosunda örneklendirilen StyleGAN yüz çıktısının kalıcı bir özelliği olan fotoğraflarda koordineli göz yerleşimini aramak üzere tasarlanmıştır. AmongUs, standart 68 dönüm noktası dedektörü ile çalışır.

Blade Runner paketinde yüz yer işareti çizim kodu kullanılan Intelligent Behavior Learning Group (IBUG) aracılığıyla yüz noktası ek açıklamaları.

Blade Runner paketinde yüz yer işareti çizim kodu kullanılan Intelligent Behavior Learning Group (IBUG) aracılığıyla yüz noktası ek açıklamaları.

AmongUs, PapersPlease'den bilinen 'Brady grubu' koordinatlarına dayalı önceden eğitilmiş yer işaretlerine dayanır ve StyleGAN tabanlı yüz görüntülerinin canlı, web'e bakan örneklerine karşı kullanılmak üzere tasarlanmıştır.

Yazar, Blade Runner'ın burada ele alınan türden deepfake tespitleri için şirket içi çözümler geliştirmek için kaynakları olmayan şirketler veya kuruluşlar için tasarlanmış, tak-çalıştır bir çözüm olduğunu ve 'daha kalıcı karşı önlemler için zaman kazanmak amacıyla geçici bir çözüm' olduğunu öne sürüyor.

Aslında, bu kadar değişken ve hızlı büyüyen bir güvenlik sektöründe, ısmarlama çok fazla or kaynakları yetersiz olan bir şirketin şu anda güvenle başvurabileceği kullanıma hazır bulut sağlayıcı çözümleri.

Blade Runner karşı düşük performans gösterse de gözlüklü StyleGAN-sahte insanlar, bu, benzer durumlarda gizlenen temel referans noktaları olarak göz tasvirlerini değerlendirebilmeyi bekleyen benzer sistemlerde nispeten yaygın bir sorundur.

Blade Runner'ın küçültülmüş bir versiyonu serbest GitHub'da kaynak açmak için. Açık kaynak deposunun işlemi başına tek bir fotoğraf yerine birden çok fotoğrafı işleyebilen, daha zengin özelliklere sahip tescilli bir sürüm mevcuttur. Yazar, zamanın elverdiği ölçüde GitHub sürümünü eninde sonunda aynı standarda yükseltmeyi planladığını söylüyor. Ayrıca, StyleGAN'ın muhtemelen bilinen veya mevcut zayıflıklarının ötesine geçeceğini ve yazılımın da aynı şekilde birlikte gelişmesi gerekeceğini kabul ediyor.

DE-SAHTE

DE-FAKE mimarisi, yalnızca metinden görüntüye yayılma modelleri tarafından üretilen görüntüler için 'evrensel algılama' elde etmeyi değil, aynı zamanda ayırt etmek için bir yöntem sağlamayı da amaçlamaktadır hangi gizli difüzyon (LD) modeli görüntüyü üretti.

DE-FAKE'deki evrensel algılama çerçevesi, yerel görüntüleri, hibrit bir çerçeveyi (yeşil) ve açık dünya görüntülerini (mavi) ele alır. Kaynak: http://export.arxiv.org/pdf/2210.06998

DE-FAKE'deki evrensel algılama çerçevesi, yerel görüntüleri, hibrit bir çerçeveyi (yeşil) ve açık dünya görüntülerini (mavi) ele alır. Kaynak: http://export.arxiv.org/pdf/2210.06998

Dürüst olmak gerekirse, şu anda bu oldukça kolay bir iş çünkü tüm popüler LD modelleri - kapalı veya açık kaynak - dikkate değer ayırt edici özelliklere sahip.

Ek olarak, çoğu, kafa kesmeye yatkınlık gibi bazı ortak zayıflıkları paylaşır. keyfi yol DALL-E 2, Stable Diffusion ve MidJourney gibi sistemlere güç sağlayan devasa veri kümelerine kare olmayan web kazınmış görüntülerin alınması:

Tüm bilgisayarla görme modellerinde ortak olan gizli yayılma modelleri, kare biçimli girdi gerektirir; ancak LAION5B veri setini besleyen toplu web kazıma, yüzleri tanıma ve yüzlere (veya başka herhangi bir şeye) odaklanma yeteneği gibi "lüks ekstralar" sunmaz ve görüntüleri doldurmak yerine oldukça acımasız bir şekilde keser (bu, tüm kaynağı korur). görüntü, ancak daha düşük bir çözünürlükte). Bir kez eğitildiklerinde, bu "ekinler" normalleşir ve Stabil Difüzyon gibi gizli difüzyon sistemlerinin çıktısında çok sık meydana gelir. Kaynaklar: https://blog.novelai.net/novelai-improvements-on-stable-diffusion-e10d38db82ac ve Kararlı Difüzyon.

Gizli yayılma modelleri, tüm bilgisayarlı görme modellerinde olduğu gibi, kare biçimli girdi gerektirir; ancak LAION5B veri setini besleyen toplu web kazıma, yüzleri (veya başka herhangi bir şeyi) tanıma ve odaklanma yeteneği gibi "lüks ekstralar" sunmaz ve görüntüleri doldurmak yerine oldukça sert bir şekilde keser (bu, tüm kaynak görüntüyü daha düşük bir çözünürlükte tutardı). Eğitildikten sonra, bu "kırpmalar" normalleşir ve Kararlı Yayılma gibi gizli yayılma sistemlerinin çıktısında çok sık görülür. Kaynaklar: https://blog.novelai.net/novelai-improvements-on-stable-diffusion-e10d38db82ac ve Kararlı Difüzyon.

DE-FAKE'in algoritmadan bağımsız olması, otomatik kodlayıcı anti-deepfake araştırmacılarının uzun zamandır el üstünde tuttuğu bir hedef olması amaçlanıyor ve şu anda LD sistemleri açısından oldukça ulaşılabilir bir hedef.

Mimari, OpenAI'nin Karşıt Dil-Görüntü Ön Eğitimini kullanır (CLIP) çok modlu kütüphane – Kararlı Difüzyonun temel bir unsuru ve hızla yeni nesil görüntü/video sentez sistemlerinin kalbi haline geliyor – 'sahte' LD görüntülerinden gömmeleri çıkarmak ve gözlenen desenler ve sınıflar üzerinde bir sınıflandırıcıyı eğitmek için bir yol olarak.

Daha 'kara kutu' senaryosunda, üretim süreciyle ilgili bilgileri tutan PNG parçalarının yükleme süreçleri ve diğer nedenlerle uzun süredir ortadan kaldırıldığı durumda, araştırmacılar Salesforce'u kullanıyor BLIP çerçevesi (ayrıca bir bileşen en az bir (Kararlı Yayılımın Dağıtımı) görüntüleri, onları oluşturan istemlerin olası anlamsal yapısı için 'körü körüne' sorgulamak için.

Araştırmacılar, MSCOCO ve Flickr2k'den yararlanan bir eğitim ve test veri kümesi oluşturmak için Stable Diffusion, Latent Diffusion (kendisi ayrı bir ürün), GLIDE ve DALL-E 30'yi kullandı.

Araştırmacılar, MSCOCO ve Flickr2k'den yararlanan bir eğitim ve test veri kümesi oluşturmak için Stable Diffusion, Latent Diffusion (kendisi ayrı bir ürün), GLIDE ve DALL-E 30'yi kullandı.

Normalde araştırmacıların deneylerinin sonuçlarına yeni bir çerçeve için oldukça kapsamlı bir şekilde bakardık; ancak gerçekte DE-FAKE'in bulgularının, içinde çalıştığı değişken ortam ve makalenin denemelerinde rekabet ettiği sistemin neredeyse üç yaşında olması göz önüne alındığında, anlamlı bir proje başarısı ölçütü olmaktan ziyade, daha sonraki yinelemeler ve benzer projeler için gelecekteki bir kıyaslama ölçütü olarak daha yararlı olması muhtemel görünüyor; bu, görüntü sentezi sahnesinin gerçekten yeni yeni ortaya çıktığı zamana dayanıyor.

En soldaki iki resim: 2019'da ortaya çıkan 'zorlu' önceki çerçeve, test edilen dört LD sisteminde DE-FAKE'e (en sağdaki iki resim) karşı tahmin edilebileceği gibi daha az başarılı.  

En soldaki iki görüntü: 2019'da ortaya çıkan ve tahmin edilebileceği gibi test edilen dört LD sisteminde DE-FAKE'e (en sağdaki iki görüntü) karşı daha az iyi performans gösteren 'tartışmalı' önceki çerçeve.

Ekibin sonuçları iki nedenden ötürü son derece olumlu: karşılaştırılabilecek çok az önceki çalışma var (ve adil bir karşılaştırma sunan, yani Stable Diffusion'ın açık kaynaklı olarak yayınlanmasından bu yana geçen yalnızca on iki haftayı kapsayan hiçbir çalışma yok).

İkinci olarak, yukarıda bahsedildiği gibi, LD görüntü sentezi alanı üstel bir hızla gelişiyor olsa da, mevcut tekliflerin çıktı içeriği, kendi yapısal (ve oldukça öngörülebilir) eksiklikleri ve tuhaflıkları nedeniyle (çoğu muhtemelen düzeltilecek) etkili bir şekilde filigran haline geliyor. en azından Kararlı Yayılma durumunda, daha iyi performans gösteren 1.5 kontrol noktasının (yani sisteme güç sağlayan 4 GB eğitimli model) piyasaya sürülmesiyle.

Aynı zamanda Stability, sistemin V2 ve V3 için net bir yol haritasına sahip olduğunu zaten belirtmişti. Son üç ayın manşetlere konu olan olayları göz önüne alındığında, OpenAI ve görüntü sentezi alanındaki diğer rakip oyuncuların herhangi bir kurumsal uyuşukluğu muhtemelen ortadan kalkmış olacak, bu da benzer şekilde hızlı bir ilerleme hızı bekleyebileceğimiz anlamına geliyor. kapalı kaynak görüntü sentezi alanı.

 

İlk olarak 14 Ekim 2022'de yayınlandı.

Makine öğrenimi yazarı, insan görüntü sentezi alanında uzman. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel sitesi: martinanderson.ai
İletişim [e-posta korumalı]
Twitter: @manders_ai