Anderson’un Açısı

Kameranızın AI ile Değiştirdiği Şeylerin Gerçek Hali

mm
AI-generated image (GPT-2). A photographer examines an open DSLR as a stream of colorful fantasy creatures and glowing imagery bursts out, while he reacts with focused, subdued surprise in a studio setting.

Kameranızın AI müdahalesinden korumak için nasıl “ham” bir fotoğrafın bütünlüğünü koruyabilirsiniz? Yeni bir araştırma, “gerçek” sensör verilerini geri yüklemeye çalışıyor – ve bunu da AI ile yapıyor!

 

AI görsellerinin son bir yıl içinde gerçekçi hale gelmesi, birçok grubun ve bireyin karşı çıkmalarına neden oldu ve görseldeki güvenin erozyonuna yol açtı.

Aynı dönemde, İçerik Kökeni ve Orijinallik Koalisyonu (C2PA) bir yarı-kriptografik standardı yayınlamaya çalıştı ve bu standart, bir görüntüye, desteklenen bir kamera veya cihaz tarafından yakalandığı anda meta veri tabanlı köken bilgisini eklemeyi amaçlıyor ve böylece bu “orijinal” resimlerin sonraki herhangi bir generatif AI kullanımını maskeliyor:

C2PA sisteminin köken şeması, yakalandığı anda meta veri olarak yazılabilecek ve bir günlüğe benzeyen, ancak büyük ayarlamaları kaydedecek şekilde, böylece AI tarafından değiştirilmiş bir görüntü, bu sistemi destekleyen medya kanallarında böyle görünür. Kaynak - https://spec.c2pa.org/specifications/specifications/1.2/specs/

C2PA sisteminin köken şeması, yakalandığı anda meta veri olarak yazılabilecek ve bir günlüğe benzeyen, ancak büyük ayarlamaları kaydedecek şekilde, böylece AI tarafından değiştirilmiş bir görüntü, bu sistemi destekleyen medya kanallarında böyle görünür. Kaynak

Standartın benimsenmesi umulduğu kadar yaygın olmadı ve şu anda sadece 14 kamera kamera içinde orijinallik bilgisini yazıyor.

C2PA’nın bir fotoğrafa “pasaport” verme fikri interessan, ancak bu fikir çok geç olabilir – çünkü kamera üreticileri artık AI işlemlerini kameranın içine yerleştiriyorlar:

2024 yılındaki 'Kamera Çekilmiş Görüntülerin Piksel Düzeyinde Kimlik Doğrulamasını Savunma' adlı makaleden: modern kamera boru hatlarının yakalama zamanında hayal edilen içeriği nasıl tanıttığını ve piksel düzeyinde kimlik doğrulama meta verilerinin bunu nasıl ortaya çıkardığını gösteren bir illüstrasyon. (A) bir akıllı telefon sensör görüntüsünü ISP işler, burada AI modülleri dijital zum veya pozlama düzeltmesi sırasında detaylar uydurabilir, gerçekçi görüntüler oluşturur ve hatalar gibi yanlış okunan plaka numaraları üretir. (B) bir kimlik doğrulama maskesi meta veri olarak gömülür ve daha sonra örtülür, böylece kullanıcıların orijinal verileri AI tarafından değiştirilmiş piksellerden ayırt etmelerine olanak tanır. Kaynak - https://ieeexplore.ieee.org/ielx7/6287639/10380310/10478521.pdf?tp=&arnumber=10478521&isnumber=10380310&ref=aHR0cHM6Ly9zY2hvbGFyLmdvb2dsZS5jb20ucHkv

2024 yılındaki ‘Kamera Çekilmiş Görüntülerin Piksel Düzeyinde Kimlik Doğrulamasını Savunma’ adlı makaleden: modern kamera boru hatlarının yakalama zamanında hayal edilen içeriği nasıl tanıttığını ve piksel düzeyinde kimlik doğrulama meta verilerinin bunu nasıl ortaya çıkardığını gösteren bir illüstrasyon. (A) bir akıllı telefon sensör görüntüsünü ISP işler, burada AI modülleri dijital zum veya pozlama düzeltmesi sırasında detaylar uydurabilir, gerçekçi görüntüler oluşturur ve hatalar gibi yanlış okunan plaka numaraları üretir. (B) bir kimlik doğrulama maskesi meta veri olarak gömülür ve daha sonra örtülür, böylece kullanıcıların orijinal verileri AI tarafından değiştirilmiş piksellerden ayırt etmelerine olanak tanır. Kaynak

Aslında, kameranın sensöründen “ham” verilerin AI tarafından müdahale görmesi, sonunda hüküm süren süreç haline gelebilir.

Bu tür post-işleme, kamera içinde fotoğrafları değiştirme trendinin aynı şey değildir, burada bir telefon uygulaması veya kamera uygulaması, fotoğrafı cihazdan indirilmeden önce yeniden düşünmenize olanak tanır.

Öte yandan, bu işleme, kameranın Görüntü Sinyal İşlemcisi (ISP)中的 bir “kara kutu” rutininde gerçekleşir, genellikle meta verilerin erişilemeyeceği veya kullanılamayacağı bir özel çalışma zamanında:

Dolayısıyla, fotoğrafı görebildiğiniz anda, zaten düşük ışık iyileştirme, upsampling veya hatta ay değiştirme gibi AI destekli iyileştirmelere tabi tutulmuş olabilir.

Çoğu durumda, bu, metin gibi nesnelerin yanlış yeniden yapılandırılmasına yol açabilir, bu da böyle bir görüntünün kanıtlar için kullanılmasını geçersiz kılabilir, çünkü gerçek bir “ham” görüntü mevcut olmayacaktır:

Yeni makaleden - bir RAW sensör görüntüsünü, bir GenAI destekli ISP işler ve bir son sRGB çıktı üretir, bu daha net görünür ancak hayal edilen detaylar içerebilir, Örneğin, plaka karakterleri yanlış olarak dijital zum sırasında çıkarılır. Gerçek sahne, uygulamada erişilemez, hem AI geliştirilmiş çıktı hem de hallucinasyondan önce gelen ara orijinal görüntü ile farklıdır. Önerilen yaklaşım, bu pre-hallucinasyon görüntüsünün geri kazanılmasını sağlar, kameranın optiğinin orijinal olarak yakaladığı şeyi, AI tabanlı iyileştirmelerin içeriğini değiştirmeden önce geri yükler.

Yeni makaleden – bir RAW sensör görüntüsünü, bir GenAI destekli ISP işler ve bir son sRGB çıktı üretir, bu daha net görünür ancak hayal edilen detaylar içerebilir, Örneğin, plaka karakterleri yanlış olarak dijital zum sırasında çıkarılır. Gerçek sahne, uygulamada erişilemez, hem AI geliştirilmiş çıktı hem de hallucinasyondan önce gelen ara orijinal görüntü ile farklıdır. Önerilen yaklaşım, bu pre-hallucinasyon görüntüsünün geri kazanılmasını sağlar, kameranın optiğinin orijinal olarak yakaladığı şeyi, AI tabanlı iyileştirmelerin içeriğini değiştirmeden önce geri yükler. Kaynak

Yukarıdaki örnekler, “yerli AI fotoğraflar” için bir çözüm sunan yeni bir araştırma makalesinden geliyor, alternatif AI süreçlerini kullanarak işlenmiş görüntüden tahmini ham ve saf görüntüyü yeniden oluşturuyor.

Yazarlar şöyle diyor:

‘AI modelleri, generatif veya algısal kayıplarla eğitildiğinde, ISP’lerde kullanılırlarsa, içeriği uydurmak için eğilimlidirler, bu da görüntünün anlamını değiştirebilir. Bunun anlamı, kameradan doğrudan çıkan görüntüler artık “sahte” içerik içerebilir, özellikle de AI-ISP modüllerinin artan bir şekilde benimsendiği akıllı telefon kameralarında.

‘Kamerada GenAI kullanımı, kamera görüntülerine nasıl baktığımız konusunda bir paradigma değişikliğini temsil eder ve kamera tarafından çekilen görüntülerin doğası gereği güvenilir olduğu şeklindeki geleneksel adli görüşü zorlar.’

Yeni çalışma, çok hafif bir kodlayıcı ve MLP dekoder kullanıyor, bu, görüntüye yalnızca 180kb’lik bir ağırlık cezasıyla dahil edilebilir. Hedef, orijinal görüntüyü gerçek zamanlı olarak yeniden çıkarmak için yeterli hızlı kodlama sistemlerinin geliştirilmesidir.

Yeni makaleden: kameranın ISP'sindeki GenAI tabanlı süper çözünürlük, yüz özelliklerini ince bir şekilde değiştirebilir, bakış veya ağız şekli değişiklikleri yoluyla görünümü veya algılanan kimliği değiştirebilir. Düşük ışık iyileştirme de benzer şekilde görüntü içeriğini değiştirebilir, görsel kalitesini iyileştirmesine rağmen yorumu etkileyebilir. QR kodu örneğinde, iyileştirme görüntüyü daha çekici hale getirir, ancak kodu okunamaz hale getirir. Yöntem, bu hallucinasyonlardan önce gelen orijinal görüntüyü geri kazanmayı sağlar, orijinal yüz detaylarını ve taranabilir bir QR kodu geri yükler.

Yeni makaleden: kameranın ISP’sindeki GenAI tabanlı süper çözünürlük, yüz özelliklerini ince bir şekilde değiştirebilir, bakış veya ağız şekli değişiklikleri yoluyla görünümü veya algılanan kimliği değiştirebilir. Düşük ışık iyileştirme de benzer şekilde görüntü içeriğini değiştirebilir, görsel kalitesini iyileştirmesine rağmen yorumu etkileyebilir. QR kodu örneğinde, iyileştirme görüntüyü daha çekici hale getirir, ancak kodu okunamaz hale getirir. Yöntem, bu hallucinasyonlardan önce gelen orijinal görüntüyü geri kazanmayı sağlar, orijinal yüz detaylarını ve taranabilir bir QR kodu geri yükler.

Alternatif olarak, kamera üreticileri, kullanıcıların gerçekten dokunulmamış sensör dökümlerine erişmesine izin verebilir, ancak bu, muhtemelen sadece çok yüksek uç ekipmana özgü kalacaktır. Mobil ve popüler tüketici alanında, maalesef, işlenmemiş fotoğraflara erişim, “niş” veya marjinal bir uğraş olarak kabul edilebilir.

Tüketici kameraları her zaman bazı post-işleme uygulamışlardır, ancak AI’nin ortaya çıkmasından önce, kullanılan algoritmalar minimal olarak “yorumlayıcı” idi ve bir fotoğrafın içeriğini aynı şekilde değiştirmeye eğilimli değildi.

İlginç bir şekilde, Samsung’un ay değiştirme politikası bazı yıllar önce kamu eleştirisine maruz kaldığı dikkate alındığında, Samsung’un Toronto’daki AI Merkezi, yeni çalışmanın katılımcılarından biridir ve bu çalışma, Kameraların GenAI Kullanımında Görüntü Orijinalliğini Ele Alma başlığını taşır ve Toronto Üniversitesi’nden beş araştırmacının katkıları ile liderlik edilmektedir.

Yöntem

Yazarlar, yalnızca pertürbasyon tasarımı ile ilgili olarak doğrudan sorunu ele alan diğer bir projeden yararlanıyorlar: 2024 makale Kamera Çekilmiş Görüntülerin Piksel Düzeyinde Kimlik Doğrulamasını Savunma, bir “ikili kimlik doğrulama maskesi” önerdi, bu, kamera AI süreçleri tarafından değiştirilen alanları belirledi:

En sağda, 2024 makalesinin “kimlik doğrulama maskesi”, kameradaki AI “pürüzsüzleştirme” süreçleri tarafından etkilenen alanları gösterir.

Ancak, sistem, “gerçek” bir görüntüyü nasıl geri yükleyebileceğine dair bir yöntem sunmuyor, bu da yeni çalışmanın ele aldığı bir konudur ve daha önceki çalışmaya bir borcu olduğunu kabul ediyor.

Yeni çalışmanın amacı, kullanıcıların, işlemenin gerçekleştiği anda mümkün olduğunca yakın bir görüntüyü geri yüklemelerine ermögektir:

Önerilen yöntemin genel görünümü. (A) yakalama zamanında, ISP çıktı görüntüsünü, hallucinasyon içeren, dondurulmuş bir önceden eğitilmiş kodlayıcıdan geçirir ve onun laten özelliklerini, uzaysal koordinatlarla birleştirir ve her piksel için non-hallucinasyonlu görüntüyü tahmin etmek için bir MLP'ye besler, eğitim, gerçek görüntüye karşı bir kayıp ile yönlendirilir. Kodlayıcı ve MLP ağırlıkları daha sonra görüntüye meta veri olarak kaydedilir. (B) çıkarım zamanında, bu ağırlıklar meta verilerden geri yüklenir ve kodlayıcı ve MLP ile non-hallucinasyonlu görüntüyü yeniden oluşturmak için kullanılır.

Önerilen yöntemin genel görünümü. (A) yakalama zamanında, ISP çıktı görüntüsünü, hallucinasyon içeren, dondurulmuş bir önceden eğitilmiş kodlayıcıdan geçirir ve onun laten özelliklerini, uzaysal koordinatlarla birleştirir ve her piksel için non-hallucinasyonlu görüntüyü tahmin etmek için bir MLP’ye besler, eğitim, gerçek görüntüye karşı bir kayıp ile yönlendirilir. Kodlayıcı ve MLP ağırlıkları daha sonra görüntüye meta veri olarak kaydedilir. (B) çıkarım zamanında, bu ağırlıklar meta verilerden geri yüklenir ve kodlayıcı ve MLP ile non-hallucinasyonlu görüntüyü yeniden oluşturmak için kullanılır.

Yakalama zamanında, yeni yöntemde, işlenmiş görüntü, bir dondurulmuş kodlayıcıdan geçirilir ve bu, görüntüyü bir laten temsil olarak dönüştürür. Daha sonra, ilgili uzaysal koordinatlar, bu özelliklerle birleştirilir ve her piksel için non-hallucinasyonlu görüntü içeriğini tahmin etmek için bir MLP’ye beslenir, eğitim, gerçek görüntüye karşı bir reconstruction loss ile yönlendirilir.

Kodlayıcı ve dekoder, çift orijinal ve hallucinasyonlu görüntüler üzerinde önceden eğitilir, daha sonra her bir çekilen görüntü için hızlı bir şekilde fine-tuned edilir ve their ağırlıkları meta veri olarak görüntüye kaydedilir, yalnızca küçük bir boyut cezası ekler.

Görüntü görüntülendiğinde, depolanan ağırlıklar çıkarılır ve aynı kodlayıcı ve MLP ile yeniden kullanılır, bu da, kamera sensörünün orijinal olarak yakaladığı şeyin yakın bir görüntüsünün geri yüklenmesini sağlar, yeni sentetik içerik eklenmeden.

Veri ve Testler

Yazarlar, iki yaygın ISP post-işleme görevini kullandılar: süper çözünürlük (SR, dahil zoomlu alanlar); ve düşük ışık fotoğrafçılığı.

Genel (“doğal görüntü”) SR test bölümü için, birçok örnek metin dahil edildi, çünkü ISP SR rutinleri, metni (örneğin, araba plaka numaraları, ancak yukarıda belirtilen örnekleri görün) değiştirdiği biliniyor. Metin bozulması, kendi başına bir sorun olarak ele alındı ve bu, SR testlerinin bir alt kümesi olarak ele alındı, özel veri ile:

Önceki makalede belirtilen kodlayıcı, her iki mod için de eğitildi ve her biri, hangi AI ISP modülünün yakalama sırasında muhtemelen devreye gireceğine bağlı olarak seçildi (örneğin, bir “düşük ışık” modu, karanlık koşullarda).

Yazarlar, süper çözünürlük eğitimi için DIV2K veri kümesini kullandı, RealESRGAN ağı ile güçlendirildi. Yukarıda belirtilen 2024 çalışmasına benzer şekilde, araştırmacılar, etkilenmeyen ve hallucinasyonlu içeriği gösteren çift veri oluşturdular.

Metin SR bölümü için, yazarlar 2023 MARCONet metin SR modelini kullandı:

2023 MARCONet makalesinden: gerçek dünya düşük çözünürlüklü ve eşdeğer upscale metin örnekleri. Kaynak - https://arxiv.org/pdf/2303.14726

2023 MARCONet makalesinden: gerçek dünya düşük çözünürlüklü ve eşdeğer upscale metin örnekleri. Kaynak

Bu durumda, araştırmacılar, MARCONet’i kullanarak orijinal olmayan görüntüleri çalıştırdı. Projenin orijinal kodundan 2000 görüntü oluşturuldu, 200’ü doğrulama için ayrıldı, 200’ü test için:

Düşük ışık testleri için, LOw-Light (LOL) veri kümesi, 2018 Çin makalesinden采用 edildi:

2018 Çin LOL veri kümesinden: aynı resimlerin farklı pozlama ve karanlık seviyelerinde örnekleri. Kaynak - https://arxiv.org/pdf/1808.04560

2018 Çin LOL veri kümesinden: aynı resimlerin farklı pozlama ve karanlık seviyelerinde örnekleri. Kaynak

Rakip Çerçeveler

Yöntemin değerlendirilmesi için, üç özel temel ile karşılaştırmalar yapıldı. İlk olarak, SIREN ve NeRF önceden eğitildi ve ardından önerilen yaklaşımın aynı süresi için fine-tuned edildi, NeRF ile doğrudan bir karşılaştırma sunuyor:

İkincisi, Instant-NGP‘den hashgrid yöntemi temelinde öğrenilmiş bir kodlama kullanan bir MLP kullanıldı, hash tablo girişleri ve MLP ortak olarak optimize edildi:

Üçüncüsü, NAFNet modeli kullanılarak, meta veri erişimi olmadan bir kör görüntü-görüntü çevirisi temelinde bir temel oluşturuldu:

Eğitimde, Adam optimizatörü, hem ön eğitim hem de fine-tuning için PyTorch üzerinde kullanıldı. Kodlayıcı ve MLP, 50.000 epoch için 32’lik bir toplu işleme boyutunda eğitildi, modalitye özgü kodlayıcılar her görev için eğitildi (örneğin, SR, metin-SR, düşük ışık).

Fine-tuning, yaklaşık üç saniye sürdü, 32GB VRAM ile bir NVIDIA V100 GPU’da: Yazarlar, hedef ortamın cihazda optimizasyon olduğunu not etti, ancak tüm çerçevelerin testlerini bu ortamda gerçekleştirmenin gerçekçi olmadığını belirtti ve bu nedenle tüm testler masaüstü ortamında gerçekleştirildi:

Metadata destekli MLP tabanlı temel karşılaştırmaları, SIREN, NeRF ve hash-grid yöntemi ile birlikte NAFNet kullanarak kör geri kazanım. Sonuçlar, üç görevde PSNR olarak bildirilir: DIV2K'de doğal görüntü süper çözünürlüğü; MARCONet'te metin süper çözünürlüğü; ve LOL'de düşük ışık iyileştirme, önerilen yöntemin her durumda en yüksek puanları elde ettiği görülüyor.

Metadata destekli MLP tabanlı temel karşılaştırmaları, SIREN, NeRF ve hash-grid yöntemi ile birlikte NAFNet kullanarak kör geri kazanım. Sonuçlar, üç görevde PSNR olarak bildirilir: DIV2K’de doğal görüntü süper çözünürlüğü; MARCONet’te metin süper çözünürlüğü; ve LOL’de düşük ışık iyileştirme, önerilen yöntemin her durumda en yüksek puanları elde ettiği görülüyor.

MLP tabanlı yaklaşımlar için, performans, girdi temsiline bağlı olarak büyük ölçüde değişiyordu, burada yalnızca uzaysal koordinatları kullanan modeller, ön eğitim sırasında mücadele etti ve sınırlı fine-tuning aşamasında iyileşmedi. Renk bilgisi eklenmesi daha güçlü sonuçlara yol açtı.

Kör geri kazanım menggunakan NAFNet, DIV2K’de iyi performans gösterdi, burada bozulmuş ve temiz görüntüler arasındaki eşleme nispeten sabitti, ancak MARCONet ve LOL’de, birden fazla olası yeniden yapılandırma olduğu ve modelin bu belirsizliği çözmek için gerekli bilgiye sahip olmadığı için bozuldu.

Bu etki, düşük ışık iyileştirme için en belirgindi, burada sahnenin orijinal parlaklığı, yalnızca işlenmiş görüntüden güvenilir bir şekilde çıkarılamadı.

Yazarlar şöyle diyor:

‘Sentetik MARCONet verisinde, farklı bulanık güçleri aynı hallucinasyonlu görüntüye haritalar. Sonuçlardan da görülebileceği gibi, önerilen yaklaşım tüm veri kümeleri boyunca rakiplerini geride bırakıyor.’

Yukarıdaki karşılaştırmada, farklı yöntemlerin, bir fotoğraf çekildiğinde ne kadar süre çalıştırıldıklarına bağlı olarak nasıl performans gösterdiklerini görebiliriz. Bir modeli her görüntü için sıfırdan eğitmek güçlü sonuçlar üretebilir, SIREN, NeRF ve hash-grid ile görüldüğü gibi – ancak bu, bir kamera içinde pratik değildir.

Bunun yerine, yazarların yöntemi, çoğu işi önceden yapar ve yakalama zamanında hızlı bir ayar yapar, bu da sınırlı zaman limitleri içinde (3, 5 veya on saniye) daha iyi sonuçlar elde etmesini sağlar.

Metadata destekli MLP tabanlı temel karşılaştırmaları, SIREN, NeRF ve hash-grid yöntemi ile birlikte NAFNet kullanarak kör geri kazanım. Sonuçlar, üç görevde PSNR olarak bildirilir: DIV2K'de doğal görüntü süper çözünürlüğü; MARCONet'te metin süper çözünürlüğü; ve LOL'de düşük ışık iyileştirme, önerilen yöntemin her durumda en yüksek puanları elde ettiği görülüyor. Lütfen daha iyi bir çözünürlük için kaynak makaleye bakınız.

Metadata destekli MLP tabanlı temel karşılaştırmaları, SIREN, NeRF ve hash-grid yöntemi ile birlikte NAFNet kullanarak kör geri kazanım. Sonuçlar, üç görevde PSNR olarak bildirilir: DIV2K’de doğal görüntü süper çözünürlüğü; MARCONet’te metin süper çözünürlüğü; ve LOL’de düşük ışık iyileştirme, önerilen yöntemin her durumda en yüksek puanları elde ettiği görülüyor. Lütfen daha iyi bir çözünürlük için kaynak makaleye bakınız.

Yukarıda, DIV2K’de nitel sonuçlar gösteriliyor, burada iyileştirme yöntemleri görünür hallucinasyonlar tanıttı. Bir GAN tabanlı süper çözünürlük modeli, göz rengini değiştirdi ve kör geri kazanım, orijinal görüntüyü yeniden oluşturmakta zorluk çekti. NeRF ve hash-grid, yapısal bölgelerde (pencereler ve metin gibi) artefaktlar üretti, oysa önerilen yöntem orijinal görüntüye daha yakın bir eşleşme sağladı.

Son olarak, yukarıdaki resimde, LOL veri kümesindeki sonuçlar gösteriliyor, parlaklık görselleştirme için ölçeklendirildi.

Kör geri kazanım, bilinmeyen parlaklık ölçeğini çözemedi, oysa önerilen yöntem, dokuları daha iyi yeniden oluşturdu ve değiştirilen karakterleri, ‘1’i ‘i’ ye geri dönüştürerek, artefakt eklemeksizin düzeltti.

Sonuç

Muhtemelen tartışılır değildir, ya da asla tartışılmazdı, ki “kamera asla yalan söylemez”. Her ne şekilde fotoğrafı çekmek ve sunmak istiyorsanız, bu, esasen bir siyasi veya sosyal karardır.

Eski post-işleme yöntemleri, dodging ve burning (uzun süredir Photoshop araçlarına aktarıldı) gibi, yüksek derecede öznel kararlar ve tercihlerdir.

Ancak, bu, en azından “nesnel” görüntü yakalamaya yönelik hedefi terk etmek için bir neden değildir; ve ortalama bir tüketicinin, bazı zorluklarla karşılaşsa da, çektiği fotoğrafların “ham” sensör dökümlerine erişmesine izin verilmesi makul görünüyor; ya da en azından, ISP post-işlemesini AI algoritmalarına karşı sınırlamasına izin verilmesi gerekiyor.

 

İlk olarak Cuma, 24 Nisan 2026’da yayımlandı

Makine öğrenimi üzerine yazar, insan görüntü sentezinde alan uzmanı. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel site: martinanderson.ai
İletişim: [email protected]