Connect with us

Yapay Zekâ

Derinlik Bilgisi Gerçek Zamanlı olarak Deepfakes’i Açığa Çıkarmak İçin Kullanılabilir

mm

İtalya’dan yapılan yeni bir araştırmada, görüntülerden elde edilen derinlik bilgisi, deepfakes’i – hatta gerçek zamanlı olarak – tespit etmede yararlı bir araç olabileceği bulundu.

Son beş yıl içinde deepfake tespiti üzerine yapılan většü araştırmalar, artefakt tanımlamasına (iyileştirilmiş tekniklerle hafifletilebilen veya kötü video codec sıkıştırmasıyla karıştırılabilen) odaklandı, çevresel aydınlatma, biyometrik özellikler, zamansal bozulma ve hatta insan içgüdüsü, yeni çalışma deepfake içeriği için değerli bir şifre olabilecek derinlik bilgisi olduğunu öneren ilk çalışmadır.

Türetilen derinlik haritalarının ve gerçek ve sahte görüntüler arasındaki algılanan derinlik bilgisi arasındaki farkın örnekleri. Kaynak: https://arxiv.org/pdf/2208.11074.pdf

Türetilen derinlik haritalarının ve gerçek ve sahte görüntüler arasındaki algılanan derinlik bilgisi arasındaki farkın örnekleri. Kaynak: https://arxiv.org/pdf/2208.11074.pdf

Eleştirel olarak, yeni çalışmada geliştirilen tespit çerçeveleri, Xception gibi hafif bir ağda çok iyi çalışıyor ve MobileNet üzerinde kabul edilebilir şekilde çalışıyor ve yeni makale, böyle ağların sunduğu düşük gecikme süresinin, recent Binance saldırısı tarafından temsil edilen canlı deepfake dolandırıcılığına karşı gerçek zamanlı deepfake tespitini ermögelize edebileceğini kabul ediyor.

Tahmin zamanında daha büyük bir ekonomi elde edilebilir, çünkü sistem, sahte ve gerçek derinlik haritaları arasındaki farkı belirlemek için tam renkli görüntülere ihtiyaç duymaz, ancak şaşırtıcı bir şekilde yalnızca derinlik bilgisinin gri tonlamalı görüntülerinde çalışabilir.

Yazarlar şöyle diyor: ‘Bu sonuç, derinliğin bu durumda renk artefaktlerinden daha ilgili bir katkı sağladığını gösterir.’

Buluntular, DeepFaceLive gibi gerçek zamanlı yüz sentez sistemlerine karşı yönlendirilen yeni bir deepfake tespiti araştırmaları dalgasının bir parçasını temsil ediyor – bu, son 3-4 ay içinde özellikle FBI’nin Mart ayındaki uyarısı之后 hızlanan bir çabadır.

Makale, DepthFake: Derinlik Tabanlı bir Deepfake Videosu Tespit Stratejisi olarak adlandırılmış ve Sapienza Üniversitesi’nden beş araştırmacı tarafından yapılmıştır.

Kenar Durumları

Eğitim sırasında, otokodlayıcı tabanlı deepfake modelleri, gözler, burun ve ağız gibi yüzün iç bölgelerine öncelik verir. Çoğu durumda, DeepFaceLab ve FaceSwap gibi açık kaynak dağıtımlarında (her ikisi de 2017 Reddit kodu öncesi silinmeden önce çatallandı), yüzün dış hatları, eğitimın çok geç bir aşamasına kadar iyi tanımlanmaz ve iç yüz alanındaki sentez kalitesine eşlik etmesi muhtemel değildir.

Önceki bir çalışmadan, yüzün 'saliency maps'ının bir görselleştirmesini görüyoruz. Kaynak: https://arxiv.org/pdf/2203.01318.pdf

Önceki bir çalışmadan, yüzün ‘saliency maps’ının bir görselleştirmesini görüyoruz. Kaynak: https://arxiv.org/pdf/2203.01318.pdf

Normalde, bu önemli değildir, çünkü gözleri ve öncelikle dışarıya doğru azalan dikkat seviyelerine odaklanma eğilimindeyiz, bu nedenle periferik kalitenin düşmesi bizi rahatsız etmez – özellikle de sahte bir kimlikle konuşuyorsak, bu sosyal kuralları ve işlem sınırlamalarını tetikleyebilir, bunlar ‘rendered’ deepfake görüntülerini değerlendirdiğimizde mevcut değildir.

Ancak, deepfaked bir yüzün kenar bölgelerindeki ayrıntı veya doğruluğun eksikliği algoritmik olarak tespit edilebilir. Mart ayında, periferik yüz alanına odaklanan bir sistem duyuruldu. Ancak, bu, ortalama üstü bir miktar eğitim verisi gerektirdiğinden, yalnızca popüler yüz veri setlerinde (örneğin ImageNet) bulunan ve güncel bilgisayar vizyonu ve deepfake tespiti tekniklerinde kökeni olan ünlüler için amaçlanmıştır.

Bunun yerine, yeni sistem, DepthFake, gerçek ve sahte video içeriğinde tahmin edilen derinlik harita bilgisinin kalitesini ayırt ederek, genel olarak bilinmeyen veya az bilinen kimliklerde çalışabilir.

Derinlere İnme

Derinlik haritası bilgileri, AI destekli stereo uygulamaları dahil olmak üzere, özellikle bilgisayar vizyonu çalışmaları için yararlı olan akıllı telefonlara giderek daha fazla entegre ediliyor. Yeni çalışmada, yazarlar, Ulusal İrlanda Üniversitesi’nin FaceDepth modelini, tek kaynaklı görüntülerden derinlik haritalarını etkili bir şekilde tahmin edebilen bir convolutional encoder/decoder ağını kullandılar.

FaceDepth modeli çalışırken. Kaynak: https://tinyurl.com/3ctcazma

FaceDepth modeli çalışırken. Kaynak: https://tinyurl.com/3ctcazma

Sonraki adımda, İtalyan araştırmacıların yeni çerçevesi için işlem hattı, konunun yüzünden hem orijinal RGB görüntüsünden hem de türetilen derinlik haritasından 224×224 piksellik bir yama çıkarır. Eleştirel olarak, bu işlem, temel içeriği yeniden boyutlandırmadan kopyalamaya olanak tanır; bu önemlidir, çünkü boyut standardı yeniden boyutlandırma algoritmaları, hedeflenen alanların kalitesini olumsuz etkileyecektir.

Bu bilgilerden, hem gerçek hem de deepfaked kaynaklardan, araştırmacılar, ilgili derinlik haritalarının algılanan kalite arasındaki farklara dayanarak gerçek ile sahte örnekleri ayırt edebilen bir convolutional neural network (CNN) eğitti.

DepthFake için kavramsal işlem hattı.

DepthFake için kavramsal işlem hattı.

FaceDepth modeli, DepthFake için uygun olan daha fazla ayrıntı sunan bir hibrit fonksiyon kullanarak gerçek ve sentetik verilerle eğitilir. Bir MobileNet örneğini bir özellik çıkarıcı olarak kullanır ve 480×640 girdi görüntülerinden 240×320 derinlik haritaları üreterek eğitilir. Her derinlik haritası, yeni projenin ayrımcısının kullandığı dört girdi kanalının dörtte birini temsil eder.

Derinlik haritası, orijinal RGB görüntüsüne otomatik olarak gömülür, böylece modern akıllı telefon kameralarının çıkabileceği RGBD görüntüsünü sağlar.

Eğitim

Model, ImageNet üzerinde önceden eğitilmiş bir Xception ağı üzerinde eğitildi, ancak derinlik bilgisini dahil etmek ve ağırlıkların doğru başlangıcını korumak için mimarinin bazı uyarlamalara ihtiyacı vardı.

Ek olarak, derinlik bilgisi ve ağın beklediği değerler arasındaki değer aralıklarındaki uyumsuzluk, araştırmacıların değerleri 0-255’e normalize etmesini gerektirdi.

Eğitim sırasında, yalnızca flipping ve rotasyon uygulandı. Çoğu durumda, modelin robust çıkarımı geliştirmek için çeşitli diğer görsel pertürbasyonlar sunulacaktır, ancak kaynak fotoğraflarındaki sınırlı ve çok kırılgan kenar derinlik harita bilgisini korumak için araştırmacıların bir azaltma rejimini benimsemelerine ihtiyaç duyuldu.

Sistem, ayrıca, kaynak görüntülerinin ne kadar karmaşık olması gerektiği hakkında bilgi edinmek için basit 2-kanallı gri tonlamada eğitildi.

Eğitim, TensorFlow API’si aracılığıyla bir NVIDIA GTX 1080 ile 8GB VRAM, ADAMAX optimizer, 25 epoch, 32 batch boyutunda yapıldı. Girdi çözünürlüğü, yüz tespiti ve çıkarma için dlib C++ kütüphanesini kullanarak 224×224 olarak sabitlendi.

Sonuçlar

Sonuçların doğruluğu, Deepfake, Face2Face, FaceSwap, Neural Texture ve RGB ve RGBD girdileriyle đầy dataset kullanarak FaceForensic++ çerçevesiyle test edildi.

Dört deepfake yöntemi ve tüm bölünmemiş veri seti üzerinde doğruluk sonuçları. Sonuçlar, kaynak RGB görüntülerinin analizi ve aynı görüntülerin gömülü tahmini derinlik haritaları arasında bölünmüştür. En iyi sonuçlar kalın olarak gösterilir ve altındaki yüzde figürleri, derinlik haritası bilgisinin sonucu nasıl iyileştirdiğini gösterir.

Dört deepfake yöntemi ve tüm bölünmemiş veri seti üzerinde doğruluk sonuçları. Sonuçlar, kaynak RGB görüntülerinin analizi ve aynı görüntülerin gömülü tahmini derinlik haritaları arasında bölünmüştür. En iyi sonuçlar kalın olarak gösterilir ve altındaki yüzde figürleri, derinlik haritası bilgisinin sonucu nasıl iyileştirdiğini gösterir.

Tüm durumlarda, derinlik kanalı, tüm konfigürasyonlarda modelin performansını iyileştirir. Xception en iyi sonuçları elde eder ve hafif MobileNet yakın arkadan gelir. Bunun üzerine yazarlar şunları söylüyor:

‘MobileNet’in Xception’dan biraz daha düşük ve daha derin ResNet50’den daha iyi performans göstermesi ilginçtir. Bu, gerçek zamanlı uygulamalar için çıkarım zamanını azaltma hedefi dikkate alındığında önemli bir sonuçtur. Bu, bu çalışmanın ana katkısı olmasa da, gelecekteki gelişmeler için cesaret verici bir sonuç olarak değerlendiriyoruz.’

Araştırmacılar, ayrıca RGBD ve 2-kanallı gri tonlama girişinin, RGB ve doğrudan gri tonlama girişinden daha tutarlı bir üstünlüğüne dikkat çekiyorlar ve derinlik çıkarımlarının gri tonlama dönüşümlerinin, çok sınırlı yerel kaynaklarla daha iyi sonuçlar elde edilmesine olanak tanıyan hesaplamalı olarak çok ucuz olduğunu gözlemlediler.

Makine öğrenimi üzerine yazar, insan görüntü sentezinde alan uzmanı. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel site: martinanderson.ai
İletişim: [email protected]