Yapay Zekâ
Göz Temasından Vücut Pozuna Makine Öğrenimi ile Göz Kontağı Tespiti

Fransa ve İsviçre’den araştırmacılar, bir kişinin AI sistemi’nin ‘ego’ kamerasına doğrudan bakıp bakmadığını, kişinin duruşu veya hareketi temelinde tahmin edebilen bir bilgisayar görme sistemi geliştirdiler.
Yeni çerçeve, göz pozisyonunu analiz etmek yerine, görsellerdeki yüzlerin yerine, görsellerdeki yüzlerin yerine, semantic anahtar noktaları (aşağıdaki resme bakın) kullanarak bu değerlendirmeyi yapar. Bu, daha veri yoğun nesne algılama mimarilerine (örneğin YOLO) kıyasla, sonuçlanan algılama yönteminin çok hafif ve çevik olmasını sağlar.

Yeni çerçeve, bir kişinin sokakta AI’nin algılama sensörüne bakıp bakmadığını, yalnızca vücut durumuna dayanarak değerlendirir. Burada, yeşille vurgulanan kişiler kameraya bakmaya daha muhtemelken, kırmızıyla vurgulananlar bakmıyor olabilir. Kaynak: https://arxiv.org/pdf/2112.04212.pdf
Çalışma, otonom araçlar için daha iyi güvenlik sistemlerinin geliştirilmesiyle motive edilmiş olsa da, yazarlar bu çalışmanın diğer endüstrilerde daha genel uygulamalara sahip olabileceğini kabul ediyorlar ve “akıllı şehirlerde bile, göz teması tespiti, yayanların davranışlarını daha iyi anlamak için faydalı olabilir, örneğin dikkatlerinin nereye gittiğini veya hangi kamu işaretlerine baktıklarını belirlemek için” diyorlar.
Bu ve sonraki sistemlerin geliştirilmesini desteklemek için araştırmacılar, LOOK adlı yeni ve kapsamlı bir veri seti derlediler. Bu veri seti, otonom bir aracın gezinen kamerasından algılanan sokak sahneleri veya bir robotun navigasyonuna ihtiyaç duyulan kalabalık sahneleri gibi keyfi senaryolarda göz teması tespitinin özel zorluklarını doğrudan ele alır.

Çerçevenin sonuçları, ‘bakıcılar’ yeşille belirtilmiştir.
Araştırma, Do Pedestrians Pay Attention? Eye Contact Detection in the Wild başlıklı bir makale olarak yayımlandı ve İsviçre’deki Visual Intelligence for Transportation (VITA) araştırma girişiminden dört araştırmacı ve Sorbonne Université’den bir araştırmacı tarafından gerçekleştirildi.
Mimari
Bu alandaki önceki çalışmalar, sürücü dikkatine odaklanmış ve sürücüye yönelik kameraların çıktısını analiz etmek için makine öğrenimi kullanmıştır. Bu, genellikle sabit, yakın ve sürücünün yüzünün sürekli bir görüntüsüne dayanır – bu lüks, genellikle düşük çözünürlüklü kameraların ve insanların yüzlerinin uzakta olduğu ve göz durumlarının analiz edilemeyeceği veya diğer engellerin (güneş gözlüğü gibi) araya girdiği kamu TV kameralarında muhtemelen mevcut olmayacaktır.
Otonom araçların dışa bakan kameraları da optimal bir senaryoda olmayacaktır, bu nedenle ‘düşük seviye’ anahtar nokta bilgileri, bir bakış analizi çerçevesi için idealdir. Otonom araç sistemleri, bir yayanın -yolun karşısına geçerek aracın yoluna girebilecek- aracı gördüğünü anlamak için son derece duyarlı ve hızlı bir şekilde anlamak zorundadır. Bu durumda, gecikme hayat ve ölüm arasındaki fark olabilir.
Araştırmacılar tarafından geliştirilen modüler mimari, bir kişiden genellikle tam vücut görüntüsünü alır ve 2B eklemeleri temel, iskeletsel bir forma çıkarır.

Yeni Fransız/İsviçre göz teması algılama sisteminin mimarisi.
Duruş, Y ekseninde bilgiyi ortadan kaldırmak için normalize edilir, böylece duruşun ‘düz’ bir temsilini oluşturur ve bu, algoritmanın öğrendiği binlerce bilinen duruşla (benzer şekilde ‘düzleştirilmiştir’) ve bunlarla ilişkili ikili bayraklar/etiketler (yani 0: Bakmıyor veya 1: Bakıyor) ile eşitlenir.
Duruş, algoritmanın iç bilgisine göre, diğer yayanların ‘kameraya baktığı’ olarak tanımlanan görüntülerle ne kadar iyi eşleştiği karşılaştırılır – yazarlar tarafından geliştirilen özel tarayıcı araçları kullanarak Amazon Mechanical Turk çalışanları tarafından yapılan notasyonlar.
LOOK veri setindeki her görüntü, dört AMT çalışanı tarafından incelendi ve yalnızca dört çalışandan üçü sonucunda anlaşmaya vardıysa, nihai koleksiyona dahil edildi.
Baş kırpma bilgileri, önceki çalışmaların çoğunun temelini oluşturur ve yeterli kalite ve kapsam olduğunda, kişinin kameraya bakıp bakmadığını belirlemek için bir karar verme konusunda yardımcı olabilir. Çok uzak人们 için bu yararlı bir veri olmayacaktır.
Veri
Araştırmacılar, bu görev için doğal olarak uygun olmayan birkaç önceki veri setinden LOOK’u türettiler. Projenin kapsamını doğrudan paylaşan yalnızca iki veri seti JAAD ve PIE‘dir ve her ikisi de sınırlamalara sahiptir.
JAAD, Toronto’daki York Üniversitesi’nden 2017 yılına ait bir çalışmadır ve 390.000 etiketli yayan örneği, sınırlayıcı kutuları ve davranış notasyonu içerir. Bunlardan yalnızca 17.000’i Sürücüye Bakıyor (yani ego kamerası) olarak etiketlenmiştir. Veri seti, Kuzey Amerika ve Avrupa’da kaydedilen 5-10 saniyelik 30 fps’lik 346 klip içerir. JAAD’de tekrarların yüksek bir oranı vardır ve benzersiz yayanların toplam sayısı yalnızca 686’dır.
Daha yakın zamanda (2019) PIE, Toronto’daki York Üniversitesi’nden gelmektedir ve JAAD’ye benzer, 30 fps’lik tahtaya monte edilmiş kamera görüntüleri içerir, bu kez altı saatlik downtown Toronto sürüşünden elde edilen 700.000 etiketli yayan ve 1.842 benzersiz yayan içerir, ancak yalnızca 180’i kameraya bakmaktadır.
Bunun yerine, yeni makaledeki araştırmacılar, üç önceki otonom sürüş veri setinden en uygun verileri derlediler: KITTI, JRDB ve NuScenes, sırasıyla Almanya’daki Karlsruhe Enstitüsü, Avustralya’daki Stanford ve Monash Üniversitesi ve bir zamanların MIT spin-off’u Nutonomy’den.
Bu derleme, dört şehirde -Boston, Singapur, Tübingen ve Palo Alto- geniş bir şekilde çeşitli yakalamalarla sonuçlandı. Yaklaşık 8000 etiketli yayan bakış açısıyla, yazarlar LOOK’un ‘vahşi’ göz teması tespiti için en çeşitli veri seti olduğunu iddia ediyorlar.
Eğitim ve Sonuçlar
Ekstraksiyon, eğitim ve değerlendirme, tümü 11GB VRAM ile single bir NVIDIA GeForce GTX 1080ti ve 3.20GHz’de çalışan Intel Core i7-8700 CPU üzerinde gerçekleştirildi.
Yazarlar, yalnızca yöntemlerinin SOTA temel çizgilerini en az %5 oranında geliştirdiğini değil, aynı zamanda JAAD’de eğitilen modellerin de görülmeyen verilere çok iyi genellemeler sağladığını buldular – bu, çeşitli veri setlerini çapraz olarak karıştırarak test edildi.
Test edilenler karmaşıktı ve face isolation ve cropping’in merkezi olmadığı yeni girişimin mimarisine uygun olarak crop tabanlı modeller için hükme gerek duyuldu, bu nedenle ayrıntılı sonuçlar için lütfen makaleye bakın.

JAAD veri seti boyunca test için piksel cinsinden sınırlayıcı kutu yüksekliği olarak ortalama kesinlik (AP) yüzdesi ve yazarların sonuçlarının bold olarak gösterildiği fonksiyonu.
Araştırmacılar, kodlarını halka açık olarak yayınladılar, veri seti burada mevcuttur ve kaynak kodu GitHub’da bulunabilir.
Yazarlar, çalışmalarının bu konudaki daha fazla araştırma girişimlerini teşvik edeceğini umuyor ve bunu ‘önemli ancak göz ardı edilen bir konu’ olarak tanımlıyorlar.












