Anderson’un Açısı

‘Baykuşlar ve Kertenkeleler’i Bir Reklamverenin Kitlesinde Arama

Published April 9, 2025

Updated April 26, 2026

Martin Anderson

Images from the paper 'Monitoring Viewer Attention During Online Ads' (https://arxiv.org/pdf/2504.06237)

Çevrimiçi reklamcılık sektörünün 2023 yılında 740,3 milyar ABD Doları harcamış olacağı tahmin edildiğinden, reklam şirketlerinin bu belirli bilgisayar görüşü araştırma alanına önemli kaynaklar ayırmalarının nedenini anlamak kolaydır.

Reklam endüstrisi, genellikle yayın yapmasa da, bazen daha gelişmiş özel çalışmaların ipuçlarını yayınlar – yüz ve göz Blick tanıma dahil – demografik analitik istatistiklerine merkezi olan yaş tanıma dahil:

Reklam bağlamında yabani bir ortamda yaş tahmini, belirli bir demografiye hedeflenen reklamverenler için ilgi çekicidir. Bu deneysel otomatik yüz yaşı tahmini örneğinde, sanatçı Bob Dylan'ın yaşı yıllara göre izlenir.

Reklam bağlamında yabani bir ortamda yaş tahmini, belirli bir yaş demografiye hedeflenen reklamverenler için ilgi çekicidir. Bu deneysel otomatik yüz yaşı tahmini örneğinde, sanatçı Bob Dylan’ın yaşı yıllara göre izlenir. Kaynak: https://arxiv.org/pdf/1906.03625

Bu çalışmalar, genellikle Arxiv gibi kamu depolarında nadiren ortaya çıkan, AI sürücülü analize dayalı olarak bir reklamla nasıl ve ne ölçüde ilgilendiklerini belirlemek için meşru olarak işe alınan katılımcıları kullanır.

Dlib’in Histogram of Oriented Gradients (HoG) genellikle yüz tahmini sistemlerinde kullanılır. Kaynak: https://www.computer.org/csdl/journal/ta/2017/02/07475863/13rRUNvyarN

Hayvansal İntikam

Bu bağlamda, doğal olarak, reklam endüstrisi, yanlış pozitifleri (analitik bir sistemin bir konunun eylemlerini yanlış yorumladığı durumlar) belirleme ve bir reklamı izleyen kişinin içeriğe tamamen dahil olmadığı zaman açık kriterler oluşturma konusunda ilgi duyuyor.

Ekran tabanlı reklamcılık söz konusu olduğunda, çalışmalar genellikle iki problemi iki ortamda odaklar: ortamlar ‘masaüstü’ veya ‘mobil’, her biri özel izleme çözümlerine ihtiyaç duyan belirli özelliklere sahiptir ve sorunlar – reklamverenin bakış açısına göre – baykuş davranışı ve kertenkele davranışı – bir reklamın önünde olmasına rağmen tam olarak dikkat etmeyen izleyicilerin eğilimi ile temsil edilir.

Reklam araştırma projesinin bir konusu olan ‘Baykuş’ ve ‘Kertenkele’ davranışının örnekleri. Kaynak: https://arxiv.org/pdf/1508.04028

Eğer reklamı izlemek için bütün başınızla bakıyorsanız, bu ‘baykuş’ davranışıdır; eğer baş pozunuz statik ancak gözleriniz ekrandan uzaklaşıyorsa, bu ‘kertenkele’ davranışıdır. Analitik ve yeni reklamların kontrol edilen koşullar altında testi açısından, bu eylemler bir sistem tarafından yakalanması için temel unsurlardır.

SmartEye’in Affectiva satın alma işleminin yeni bir makalesi bu sorunları ele alıyor ve tüm gerekli koşullar ve olası tepkiler boyunca birleşik ve birleştirilmiş bir özellikler kümesi sunmak ve bir izleyicinin içeriğe karşı ilgisiz, heyecanlı veya uzak olup olmadığını belirlemek için mevcut beberapa çerçeveyi kullanarak bir mimari sunuyor.

Masaüstü ve mobil cihazlarda çeşitli dikkatsizlik sinyalleri için yeni dikkat sistemi tarafından tespit edilen doğru ve yanlış pozitiflerin örnekleri. Kaynak: https://arxiv.org/pdf/2504.06237

Yazarlar şöyle diyor:

‘Sınırlı araştırma çevrimiçi reklamlarda dikkat izlemeye dalmıştır. Bu çalışmalar, gözü başka yere kaydırma örneklerini tanımlamak için baş pozunu veya bakış yönünü tahmin etmeye odaklansa da, cihaz türü (masaüstü veya mobil), kameranın ekranla相対位置 ve ekran boyutu gibi kritik parametreleri göz ardı eder. Bu faktörler dikkat algılama üzerinde önemli bir etkiye sahiptir.

‘Bu makalede, çeşitli dikkatsizlik türlerini tespit eden, ‘baykuş’ ve ‘kertenkele’ davranışının gözü başka yere kaydırması, konuşma, uykululuk (esneme ve uzun süreli göz kapama) ve ekranın terk edilmesi dahil olmak üzere dikkat algılama için bir mimari öneriyoruz.

‘Önceki yaklaşımların aksine, bizim yöntemimiz, ham bakış tahmini ile birlikte cihaz özgü özellikler gibi cihaz türü, kamera yerleştirme, ekran boyutu (masaüstü için) ve kamera yönü (mobil cihazlar için) entegre eder ve dikkat algılama doğruluğunu artırır.’

Yeni çalışma çevrimiçi reklamlarda izleyici dikkatini izleme başlığını taşıyor ve Affectiva’dan dört araştırmacının eseridir.

Yöntem ve Veri

Büyük ölçüde bu tür sistemlerin gizliliği ve kapalı kaynaklı doğası nedeniyle, yeni makale yazarların yaklaşımını doğrudan rakiplerle karşılaştırmaz, ancak bulgularını yalnızca ablasyon çalışmaları olarak sunar; makale ayrıca genel olarak Bilgisayar Görme literatürünün normal formatına uymaz. Bu nedenle, araştırmayı sunulduğu şekliyle ele alacağız.

Yazarlar, dikkat algılamasının özellikle çevrimiçi reklamlar bağlamında sadece sınırlı sayıda çalışmaya konu olduğunu vurguluyorlar. AFFDEX SDK gibi, gerçek zamanlı çoklu yüz tanıma sunan, dikkat yalnızca baş pozundan çıkarılır, katılımcılar baş açısı belirli bir eşiği geçtiğinde dikkatsiz olarak etiketlenir.

AFFDEX SDK’dan bir örnek, bir Affectiva sistemi, dikkat göstergesi olarak baş pozuna güveniyor. Kaynak: https://www.youtube.com/watch?v=c2CWb5jHmbY

2019 işbirliği Derin Öğrenme Kullanarak Video İçeriğine Görsel Dikkatin Otomatik Ölçümü, yaklaşık 28.000 katılımcıya ait bir veri kümesi, çeşitli dikkatsiz davranışlar için etiketlendi, bunlar arasında başka yere bakmak, gözleri kapatmak veya ilgili olmayan faaliyetlerde bulunmak yer alıyor ve bir CNN-LSTM modeli, yüz görünümü üzerinden zaman içinde dikkati tespit etmek için eğitildi.

2019 makalesinden, bir izleyici ekran上的 video içeriğine karşı tahmin edilen dikkat durumlarını gösteren bir örnek. Kaynak: https://www.jeffcohn.net/wp-content/uploads/2019/07/Attention-13.pdf.pdf

Ancak yazarlar, bu önceki çabaların, katılımcının masaüstü veya mobil bir cihaz kullandığı, ekran boyutu veya kamera yerleştirme gibi cihaz özgü faktörleri hesaba katmadığını gözlemliyor. Ayrıca, AFFDEX sistemi yalnızca bakış yönünün sapmasını tanımlamaya odaklanır ve diğer dikkatsizlik kaynaklarını ihmal eder, mientras 2019 çalışması daha geniş bir davranış kümesini tespit etmeye çalışır – ancak tek bir sığ CNN kullanması, bu görev için yetersiz olabileceğini belirtir.

Yazarlar, dikkat algılama için bir mimari geliştirdiler, iki ticari araç setini kullanarak: AFFDEX 2.0 ve SmartEye SDK.

AFFDEX 2.0’dan yüz analizi örnekleri. Kaynak: https://arxiv.org/pdf/2202.12059

Bu önceki çalışmalar, yüz ifadeleri, baş pozisi ve bakış yönü gibi düşük seviyeli özellikleri çıkarır. Bu özellikler daha sonra, her bir dikkatsizlik türünü bağımsız olarak optimize etmek ve değerlendirmek için riêng bir ikili sınıflandırıcı tarafından işlenir.

Veri Kümesi: Bakış

Yazarlar, dikkat algılama sistemini güçlendirmek ve değerlendirmek için dört veri kümesi kullandı: üçü ayrı ayrı bakış davranışı, konuşma ve esneme üzerine odaklandı ve dördüncüsü gerçek dünya reklam testi oturumlarından oluşan bir dikkatsizlik türleri karışımı içeriyordu.

Bu kategorilerin her biri için özel veri kümeleri oluşturuldu. Tüm derlenen veri kümeleri, milyonlarca kaydedilmiş reklam izleme oturumunu içeren bir iç depodan geldi ve bilgilendirilmiş onay ile geldi, ancak bu onay anlaşmalarının sınırlamaları nedeniyle, yazarlar yeni çalışmanın veri kümelerinin kamuoyuyla paylaşılamayacağını belirtiyorlar.

Bakış veri kümesini oluşturmak için, katılımcılardan ekranın çeşitli noktalarına hareket eden bir nokta izlemeleri ve sonra ekranın dört yönünde (yukarı, aşağı, sola ve sağa) bakmaları istendi. Bu şekilde, yakalama ve kapsam arasındaki ilişki kuruldu:

Masaüstü ve mobil cihazlarda bakış video uyarısının ekran görüntüleri.

Hareketli nokta segmentleri dikkatli olarak etiketlendi ve ekran dışı segmentler dikkatsiz olarak etiketlendi, böylece hem olumlu hem de olumsuz örneklerin etiketli bir veri kümesi oluşturuldu.

Her video yaklaşık 160 saniye sürdü, masaüstü ve mobil platformlar için ayrı ayrı versiyonlar oluşturuldu, her biri sırasıyla 1920×1080 ve 608×1080 çözünürlüğe sahipti.

Toplam 609 video toplandı, 322 masaüstü ve 287 mobil kaydı içeriyordu. Etiketler video içeriğine dayalı olarak otomatik olarak uygulandı ve veri kümesi bölündü ve 158 eğitim örneği ve 451 test örneği oluşturuldu.

Veri Kümesi: Konuşma

Bu bağlamda, ‘dikkatsizlik’ tanımlayan kriterlerden biri, bir kişinin bir saniyeden uzun süre konuşmasıdır (bu, anlık bir yorum veya hatta bir öksürük olabilir).

Kontrol edilen ortam ses kaydedip analiz etmediğinden, konuşma, tahmini yüz özellikleri içindeki iç hareketler gözlemleyerek çıkarılır. Bu nedenle, yazarlar ses olmadan konuşmayı tespit etmek için tamamen görsel girdiden oluşan bir veri kümesi oluşturdular, iç depodan çekildi ve iki parçaya ayrıldı: ilki yaklaşık 5.500 video içeriyordu, her biri üç annotatör tarafından konuşma veya konuşmama olarak etiketlendi (bunlardan 4.400’ü eğitim ve doğrulama için, 1.100’ü test için kullanıldı).

İkinci veri kümesi, 16.000 oturumdan oluşuyordu, bunlar otomatik olarak etiketlenmişti: 10.500’ü katılımcıların reklamları sessizce izlediğini, 5.500’ü ise katılımcıların markalar hakkında görüşlerini ifade ettiğini içeriyordu.

Veri Kümesi: Esneme

Bazı ‘esneme’ veri kümeleri mevcut, YawDD ve Sürücü Yorgunluğu gibi, ancak yazarlar, bu veri kümelerinin reklam testi senaryoları için uygun olmadığını iddia ediyorlar, çünkü bunlar ya simüle edilmiş esneme içeriyor ya da yüz contortions içeriyor ki bunlar korku veya diğer, esneme olmayan eylemlerle karıştırılabilir.

Bu nedenle, yazarlar 735 videosunu iç koleksiyonlarından kullandılar, muhtemelen çene düşmesi içeren oturumları seçtiler ve her videoyu üç annotatör tarafından etkin veya etkin olmayan esneme olarak etiketledi. Sadece %2,6’lık bir çerçeve aktif esnemeyi içeriyordu, bu da sınıf dengesizliğini vurguluyor ve veri kümesi 670 eğitim videosu ve 65 test videosu olarak bölündü.

Veri Kümesi: Dikkatsizlik

Dikkatsizlik veri kümesi de yazarların reklam testi depolarından geldi, katılımcılar gerçek reklamları izledi ve atanmış görevleri yoktu. Toplam 520 oturum (193 mobil ve 327 masaüstü ortamında) rastgele seçildi ve üç annotatör tarafından dikkatli veya dikkatsiz olarak etiketlendi.

Dikkatsiz davranış, ekran dışı bakış, konuşma, uykululuk ve terk edilmiş ekranlar içeriyordu. Oturumlar, masaüstü kayıtlarının daha yaygın olduğu, esnek webcam yerleştirme nedeniyle, dünyanın çeşitli bölgelerini kapsıyordu.

Dikkat Modelleri

Önerilen dikkat modeli, yüz ifadeleri, baş pozisi ve bakış yönü gibi düşük seviyeli görsel özellikler işler.

Bu özellikler daha sonra, her bir dikkatsizlik türünü bağımsız olarak optimize etmek ve değerlendirmek için ayrı bir ikili sınıflandırıcı tarafından işlenir.

Önerilen izleme sisteminin şeması.

Bakış modeli, normalize edilmiş bakış koordinatları kullanarak izleyici ekranı izliyor veya izlemiyor mu diye belirler, masaüstü ve mobil cihazlar için ayrı ayrı kalibrasyon yapılır. Bu süreci destekleyen bir doğrusal Destek Vektör Makinesi (SVM) vardır, bu, hızlı bakış değişikliklerini pürüzlendirmek için bir bellek penceresi ile birlikte uzaysal ve zaman özelliklerine eğitilir.

Konuşma olmadan konuşmayı tespit etmek için, sistem ağız bölgesini kırpma ve konuşma ve konuşmama video segmentleri üzerinde eğitilmiş bir 3D-CNN kullanır. Etiketler, oturum türüne dayalı olarak atanır, zamanlı pürüzlendirme, kısa ağız hareketlerinden kaynaklanan yanlış pozitifleri azaltır.

Esneme tam yüz görüntü kırpma kullanılarak tespit edilir, bu, daha geniş yüz hareketini yakalamak içindir, ve manuel olarak etiketlenmiş çerçeveler üzerinde eğitilmiş bir 3D-CNN ile birlikte kullanılır, ancak görev, esnemenin düşük sıklığı ve diğer ifadelerle benzerliği nedeniyle karmaşıktır.

Ekran terk bir yüzün veya aşırı baş pozunun yokluğunda belirlenir, ve bir karar ağacı tarafından tahminler yapılır.

Son dikkat durumu sabit bir kural kullanılarak belirlenir: herhangi bir modül dikkatsizlik tespit ederse, izleyici dikkatsiz olarak işaretlenir – bu, duyarlılığı önceliklendiren bir yaklaşımdır ve masaüstü ve mobil bağlamlar için ayrı ayrı ayarlanır.

Testler

Testler, bileşenlerin kaldırıldığı ve sonucun not edildiği ablasyon yöntemini takip eder.

Çalışmada tanımlanan çeşitli dikkatsizlik kategorileri.

Bakış modeli, üç ana adım aracılığıyla ekran dışı davranışları tanımlar: ham bakış tahminlerinin normalize edilmesi, çıktının ince ayar yapılması ve masaüstü cihazlar için ekran boyutunun tahmini.

Her bir bileşenin önemini anlamak için, yazarlar onları bireysel olarak kaldırdı ve 226 masaüstü ve 225 mobil video üzerindeki performansı değerlendirdi. Sonuçlar, G-mean ve F1 puanları kullanılarak ölçüldü ve aşağıdaki gibi gösterildi:

Tam bakış modelinin performansı ve bireysel işleme adımlarının kaldırıldığı sürümler.

Her durumda, bir adım atlandığında performans düşer. Normalleştirme, masaüstü cihazlarda özellikle değerli olur, burada kamera yerleştirme daha fazla değişkenlik gösterir.

Çalışma ayrıca, görsel özelliklerin mobil kamera yönünü nasıl öngördüğünü değerlendirdi: yüz konumu, baş pozisi ve göz bakışları sırasıyla 0,75, 0,74 ve 0,60 puan aldı, ve bunların birleşimi 0,91’e ulaştı, böylece birden fazla ipucunun entegrasyonunun avantajını vurguladı.

Konuşma modeli, dikey dudak mesafesi üzerinde eğitildi ve manuel olarak etiketlenmiş test kümesinde ROC-AUC 0,97 puanına ulaştı ve daha büyük otomatik olarak etiketlenmiş veri kümesinde 0,96 puanına ulaştı, bu da her iki veri kümesinde tutarlı bir performans gösterdi.

Esneme modeli, yalnızca ağız yön oranı kullanılarak %96,6’lık bir ROC-AUC puanına ulaştı, bu, AFFDEX 2.0’dan eylem birimi tahminleriyle birleştirildiğinde %97,5’e yükseldi.

Terkinin tespit edildiği terk edilmiş ekran modeli, bir yüzün veya aşırı baş pozunun yokluğunda belirlenir ve bir karar ağacı tarafından tahminler yapılır.

Yazarlar, bu bulguları şöyle yorumluyor:

‘Dikkatsizlik sinyallerinin tümünün entegrasyonu, dikkat algılama performansını artırıyor.

‘İkincisi, dikkat algılamasındaki iyileşme, hem masaüstü hem de mobil cihazlarda tutarlıdır. Üçüncüsü, gerçek veri kümesindeki mobil oturumlar, ekranın dışına baktığında önemli baş hareketleri gösterir, bu da masaüstü cihazlara göre mobil cihazlarda daha yüksek performans sağlar. Dördüncüsü, uykululuk sinyalini eklemek, diğer sinyallere göre nispeten hafif bir iyileşme sağlar, çünkü bu genellikle nadiren olur.

‘Son olarak, terk edilmiş ekran sinyali, masaüstü cihazlara göre mobil cihazlarda daha büyük bir iyileşme sağlar, çünkü mobil cihazlar kolayca terk edilebilir.’

Yazarlar ayrıca, modelini AFFDEX 1.0 ile karşılaştırdı, bu, önceki bir sistemdi ve reklam testinde kullanıldı – ve hatta mevcut modelin başa dayalı bakış tahmini, her iki cihaz tipinde AFFDEX 1.0’i aştı:

‘Bu iyileşme, hem yaw hem de pitch yönlerinde baş hareketlerini entegre etmenin ve baş pozunu küçük değişiklikleri hesaba katmak için normalize etmenin bir sonucudur. Gerçek mobil veri kümesindeki belirgin baş hareketleri, baş modelimizin AFFDEX 1.0 ile benzer performans göstermesine neden oldu.’

Yazarlar makaleyi şöyle bitiriyor:

‘Sonuçlar, modelimizin çeşitli dikkatsizlik türlerini kontrolsüz ortamlarda etkili bir şekilde tespit ettiğini gösteriyor. Ancak, bazı kenar durumlarda yanlış pozitifler üretebilir, Örneğin, ekranda bakışlarını korurken aşırı baş eğimleri, bazı ağız tıkanmaları, aşırı bulanık gözler veya ağır şekilde kararmış yüz görüntüleri.’

SONUÇ

Bu sonuçlar, önceki çalışmalara göre ölçülü ancak anlamlı bir ilerleme temsil etse de, çalışmanın daha derin değeri, izleyici iç durumuna erişme konusundaki sürekli çabanın bir bakış sunmasından geliyor. Veri, onay ile toplanmış olsa da, metodoloji, yapılandırılmış, pazar araştırması ayarlarının ötesine geçen gelecekteki çerçevelere işaret ediyor.

Bu biraz paranoik sonuç, bu araştırma dalının kapalı, kısıtlanmış ve kıskançlıkla korunan doğası tarafından daha da güçlendiriliyor.

* Yazarların satır içi alıntılarını hyperlinklere dönüştürme.

İlk olarak 9 Nisan 2025 Çarşamba günü yayınlandı

Martin Anderson

Makine öğrenimi üzerine yazar, insan görüntü sentezinde alan uzmanı. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel site: martinanderson.ai
İletişim: [email protected]