Anderson’un Açısı

Göz Kontağı Algılama Makine Öğrenimi ile Vücut Pozisyonundan

mm

Fransa ve İsviçre’den araştırmacılar, bir kişinin AI sistemlerinin ‘ego’ kamerasına doğrudan bakıp bakmadığını, yalnızca kişinin duruşu veya hareketi temelinde tahmin edebilen bir bilgisayar görme sistemi geliştirdiler.

Yeni çerçeve, bu değerlendirmeyi yapmak için yüz resimlerinde göz pozisyonunu analiz etmeye çalışmak yerine, semantik anahtar noktaları (aşağıdaki resme bakın) gibi çok az bilgi kullanır. Bu, sonuçta elde edilen algılama yönteminin, YOLO gibi daha veri yoğunluşturulmuş nesne algılama mimarilerine kıyasla çok hafif ve çevik olmasını sağlar.

Yeni çerçeve, bir kişinin sokakta AI'nin algılama sensörüne bakıp bakmadığını, yalnızca vücut durumuna dayanarak değerlendirir. Burada, yeşil renkle vurgulanan kişiler kameralara bakma olasılığı daha yüksekken, kırmızı renkle vurgulanan kişiler daha uzakta olabilir. Kaynak: https://arxiv.org/pdf/2112.04212.pdf

Yeni çerçeve, bir kişinin sokakta AI’nin algılama sensörüne bakıp bakmadığını, yalnızca vücut durumuna dayanarak değerlendirir. Burada, yeşil renkle vurgulanan kişiler kameralara bakma olasılığı daha yüksekken, kırmızı renkle vurgulanan kişiler daha uzakta olabilir. Kaynak: https://arxiv.org/pdf/2112.04212.pdf

Çalışma, otonom araçlar için daha iyi güvenlik sistemlerinin geliştirilmesiyle motive edilmiş olsa da, yazarlar bu çalışmanın diğer endüstrilerde de daha genel uygulamalara sahip olabileceğini kabul ediyor ve ‘akıllı şehirlerde bile, göz teması algılama, yayanların davranışlarını daha iyi anlamak için faydalı olabilir, örneğin dikkatlerinin nereye gittiğini veya hangi kamu işaretlerine baktıklarını belirlemek için’ diyorlar.

Bu ve sonraki sistemlerin geliştirilmesini desteklemek için araştırmacılar, LOOK adında yeni ve kapsamlı bir veri seti derlediler. Bu veri seti, otonom bir aracın gezici kamerasından algılanan sokak sahneleri veya bir robotun geçmesi gereken kalabalık sahneler gibi keyfi senaryolarda göz teması algılama konusundaki özel zorlukları doğrudan ele alır.

Çerçevenin sonuçları, 'bakanlar' yeşil renkle vurgulanmıştır.

Çerçevenin sonuçları, ‘bakanlar’ yeşil renkle vurgulanmıştır.

Araştırma, Do Pedestrians Pay Attention? Eye Contact Detection in the Wild başlıklı bir makale olarak yayımlandı ve İsviçre’deki Visual Intelligence for Transportation (VITA) araştırma girişiminden dört araştırmacı ve Sorbonne Université’den bir araştırmacı tarafından gerçekleştirildi.

Mimari

Bu alanda önceki çalışmalar, sürücü dikkatine odaklanmıştı ve sürücüye yönelik kameraların çıkışını analiz etmek için makine öğrenimi kullanıyordu. Ayrıca, sürücünün sabit, yakın ve sürekli bir görüntüsüne dayanıyordu – bu, kamu TV kameralarının genellikle düşük çözünürlüklü akışlarında veya insanların yüzlerinin göz durumunu çözme için çok uzak olabileceği ve diğer engellerin (güneş gözlüğü gibi) de araya girdiği durumlarda mümkün olmayabilir.

Projenin belirtilen amacına daha central olan, otonom araçların dışa bakan kameraları, optimum bir senaryoda olmayabilir, bu nedenle ‘düşük seviye’ anahtar nokta bilgileri, bir bakış analizi çerçevesi için idealdir. Otonom araç sistemleri, bir yayanın -aracın önüne çıkabilecek- araç gördüğünü anlamak için çok hızlı ve duyarlı bir yol cầnır. Bu durumda, gecikme hayat ve ölüm arasındaki fark olabilir.

Araştırmacılar tarafından geliştirilen modüler mimari, bir kişinin (genellikle) tam vücut görüntüsünü alır ve 2D eklem noktalarını bir temel, iskelet şekline dönüştürür.

Yeni Fransız/İsviçre göz teması algılama sisteminin mimarisi.

Yeni Fransız/İsviçre göz teması algılama sisteminin mimarisi.

Durum, Y eksenindeki bilgileri kaldırmak için normalize edilir, böylece ‘düz’ bir duruş temsil edilir ve bu, algoritmanın öğrendiği binlerce bilinen duruşla ve bunlarla ilişkili ikili bayrak/etiketlerle (yani 0: Bakmıyor veya 1:Bakıyor) eşitlenir.

Durum, algoritmanın içsel bilgisine, bu pozu ‘kameraya bakan’ olarak tanımlanmış diğer yayanların görüntüleriyle nasıl karşılık geldiğine göre karşılaştırılır – bu etiketler, LOOK veri setinin geliştirilmesinde yer alan Amazon Mechanical Turk işçileri tarafından özel tarayıcı araçları kullanılarak yapılır.

LOOK’taki her görüntü, dört AMT işçisi tarafından incelendi ve yalnızca üç işçinin sonuç üzerinde anlaşmaya vardığı görüntüler nihai koleksiyona dahil edildi.

Baş kesme bilgileri, önceki çalışmaların çoğunun temelini oluşturur, ancak keyfi kentsel senaryolarda en az güvenilir gaze göstergelerinden biridir ve yeterli kapsama ve karar kalitesine sahip olduğunda, mimaride isteğe bağlı bir veri akışı olarak dahil edilir. Çok uzak人们 için bu, faydalı bir veri olmayacaktır.

Veri

Araştırmacılar, LOOK’u bu görev için varsayılan olarak uygun olmayan birkaç önceki veri setinden türettiler. Projenin kapsamını doğrudan paylaşan yalnızca iki veri seti JAAD ve PIE‘dir ve her ikisi de sınırlamalara sahiptir.

JAAD, Toronto’daki York Üniversitesi’nden 2017 yılına ait bir çalışmadır ve 390.000 etiketli yayan örneği, bunlara karşılık gelen sınırlayıcı kutuları ve davranış etiketlerini içerir. Bunlardan yalnızca 17.000’i Sürücüye Bakıyor (yani ego kamerası) olarak etiketlenmiştir. Veri seti, Kuzey Amerika ve Avrupa’da kaydedilen 30 fps’lik 346 klibi içerir ve her biri 5-10 saniyelik araç içi kamera görüntülerini içerir. JAAD, tekrarların yüksek bir oranına sahiptir ve benzersiz yayanların toplam sayısı yalnızca 686’dır.

Daha yakın tarihli (2019) PIE, Toronto’daki York Üniversitesi’nden gelmektedir ve JAAD’ye benzerdir, çünkü araç içi 30 fps’lik görüntüleri içerir, bu kez altı saatlik Toronto şehir merkezi sürüşünden elde edilen 700.000 etiketli yayan ve 1.842 benzersiz yayan içerir, ancak yalnızca 180’i kameraya bakmaktadır.

Bunun yerine, araştırmacılar, üç önceki otonom sürüş veri setinden en uygun verileri derlediler: KITTI, JRDB ve NuScenes, sırasıyla Almanya’daki Karlsruhe Teknoloji Enstitüsü, Avustralya’daki Stanford ve Monash Üniversitesi ve bir zamanların MIT spin-off’u Nutonomy’den geldi.

Bu derleme, Boston, Singapur, Tübingen ve Palo Alto gibi dört şehirden geniş bir kamera görüntüsü koleksiyonu ile sonuçlandı. Yaklaşık 8000 etiketli yayan perspektifi ile yazarlar, LOOK’un ‘vahşi’ göz teması algılama için en çeşitli veri seti olduğunu iddia ediyorlar.

Eğitim ve Sonuçlar

Öznitelik çıkarma, eğitim ve değerlendirme, 11 GB’lik VRAM ile çalışan tek bir NVIDIA GeForce GTX 1080ti ve 3,20 GHz’de çalışan Intel Core i7-8700 CPU üzerinde gerçekleştirildi.

Yazarlar, yalnızca yöntemlerinin SOTA temel çizgilerini en az %5 oranında geliştirdiğini değil, aynı zamanda JAAD’de eğitilen modellerin görülmemiş verilere genellemesini çok iyi yaptığını da buldular – bu, çeşitli veri setlerinin karıştırılmasıyla test edildi.

Test komplexti, ayrıca yüz temel modelini (yüz izolasyonu ve kesme, yeni girişimin mimarisinin merkezinde değildir) sağlama ihtiyacı vardı, bu nedenle ayrıntılı sonuçlar için makaleye bakın.

JAAD veri seti boyunca ortalama kesinlik (AP) sonuçları, yazarların sonuçları kalın olarak gösterilmiştir.

JAAD veri seti boyunca ortalama kesinlik (AP) sonuçları, yazarların sonuçları kalın olarak gösterilmiştir.

Araştırmacılar, kodlarını kamuoyuna açıklayarak, veri setini burada ve kaynak kodunu GitHub’da yayımladılar.

Yazarlar, bu çalışmanın, ‘önemli ancak göz ardı edilen bir konu’ olarak tanımladıkları alanda daha fazla araştırma girişimini teşvik etme umuduyla sonuçlarını tamamladılar.

Makine öğrenimi üzerine yazar, insan görüntü sentezinde alan uzmanı. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel site: martinanderson.ai
İletişim: [email protected]