Kąt Andersona
Poszukiwanie „sów i jaszczurek” wśród odbiorców reklam

Ponieważ sektor reklamy internetowej jest szacunkowa Jeśli wziąć pod uwagę, że w 740.3 r. wydano 2023 mld USD, łatwo zrozumieć, dlaczego firmy reklamowe inwestują tak duże środki w ten konkretny nurt badań nad komputerowym widzeniem.
Choć jest to przemysł wyspiarski i ochronny, sporadycznie publikuje badania, które wskazują na bardziej zaawansowaną pracę zastrzeżoną w zakresie rozpoznawania twarzy i wzroku – w tym rozpoznawanie wieku, kluczowe dla statystyk analizy demograficznej:

Oszacowanie wieku w kontekście reklamy w środowisku naturalnym jest interesujące dla reklamodawców, którzy mogą kierować reklamy do określonej grupy demograficznej wiekowej. W tym eksperymentalnym przykładzie automatycznego szacowania wieku twarzy wiek wykonawcy Boba Dylana jest śledzony na przestrzeni lat. Źródło: https://arxiv.org/pdf/1906.03625
Tego typu badania, które rzadko pojawiają się w publicznych repozytoriach, takich jak Arxiv, wykorzystują legalnie zrekrutowanych uczestników jako podstawę analizy opartej na sztucznej inteligencji. Jej celem jest określenie, w jakim stopniu i w jaki sposób widz angażuje się w reklamę.

Histogram zorientowanych gradientów (HoG) Dliba jest często używany w systemach oceny twarzy. Źródło: https://www.computer.org/csdl/journal/ta/2017/02/07475863/13rRUNvyarN
Zwierzęcy instynkt
W związku z tym branża reklamowa jest oczywiście zainteresowana wykrywaniem wyników fałszywie dodatnich (sytuacji, w których system analityczny błędnie interpretuje działania podmiotu) oraz ustalaniem jasnych kryteriów określających, kiedy osoba oglądająca reklamy nie angażuje się w pełni w treść.
Jeśli chodzi o reklamę ekranową, badania koncentrują się zazwyczaj na dwóch problemach w dwóch środowiskach. Środowiska te to „komputery stacjonarne” i „urządzenia mobilne”, z których każde ma specyficzne cechy, wymagające dedykowanych rozwiązań śledzących; a problemy – z punktu widzenia reklamodawcy – są reprezentowane przez zachowanie sowy i zachowanie jaszczurki – tendencja widzów do nie zwracania pełnej uwagi na wyświetlaną im reklamę.

Przykłady zachowań „Sowy” i „Jaszczurki” u osoby objętej projektem badawczym dotyczącym reklamy. Źródło: https://arxiv.org/pdf/1508.04028
Jeśli szukasz z dala od zamierzonej reklamy całą swoją głową, to jest zachowanie „sowy”; jeśli pozycja twojej głowy jest statyczna, ale twoje oczy są błądzić Z ekranu wynika, że to zachowanie „jaszczurki”. Z punktu widzenia analityki i testowania nowych reklam w kontrolowanych warunkach, są to niezbędne działania, które system musi rejestrować.
Nowy dokument opracowany na podstawie przejęcia Affectiva przez SmartEye rozwiązuje te problemy, oferując architekturę wykorzystującą kilka istniejących ram w celu zapewnienia połączonego i scalonego zestawu funkcji dla wszystkich wymaganych warunków i możliwych reakcji, a także umożliwienia stwierdzenia, czy widz się nudzi, jest zaangażowany, czy też w jakiś sposób nie jest zainteresowany treściami, które reklamodawca chce mu pokazać.

Przykłady prawdziwych i fałszywych wyników pozytywnych wykrytych przez nowy system uwagi dla różnych sygnałów rozpraszających, wyświetlane osobno dla urządzeń stacjonarnych i mobilnych. Źródło: https://arxiv.org/pdf/2504.06237
Autorzy stwierdzają*:
"Ograniczony naukowe zagłębił się w monitorowanie uwagi podczas reklam online. Podczas gdy te badania skupiały się na szacowaniu pozycji głowy lub kierunku spojrzenia w celu zidentyfikowania przypadków przekierowanego spojrzenia, pomijają krytyczne parametry, takie jak typ urządzenia (komputer stacjonarny lub mobilny), umiejscowienie kamery względem ekranu i rozmiar ekranu. Czynniki te znacząco wpływają na wykrywanie uwagi.
W tym artykule proponujemy architekturę wykrywania uwagi, która obejmuje wykrywanie różnych bodźców rozpraszających uwagę, w tym zachowań sów i jaszczurek polegających na wpatrywaniu się poza ekran, mówieniu, senności (poprzez ziewanie i długotrwałe zamykanie oczu) oraz pozostawianiu ekranu bez nadzoru.
„W przeciwieństwie do poprzednich podejść nasza metoda integruje cechy charakterystyczne dla danego urządzenia, takie jak typ urządzenia, umiejscowienie kamery, rozmiar ekranu (w przypadku komputerów stacjonarnych) i orientację kamery (w przypadku urządzeń mobilnych) z surowymi danymi o ruchu wzroku, co pozwala zwiększyć dokładność wykrywania uwagi”.
nowa praca jest zatytułowany Monitorowanie uwagi widzów podczas reklam onlinei pochodzi od czterech badaczy z Affectiva.
Metoda i dane
Głównie ze względu na tajność i zamknięty charakter takich systemów, nowy artykuł nie porównuje podejścia autorów bezpośrednio z konkurencją, lecz prezentuje swoje wyniki wyłącznie w formie badań ablacyjnych; artykuł nie jest też generalnie zgodny z typowym formatem literatury poświęconej komputerowemu widzeniu. Dlatego przyjrzymy się badaniom w formie, w jakiej są prezentowane.
Autorzy podkreślają, że tylko ograniczona liczba badań dotyczyła wykrywania uwagi w kontekście reklam internetowych. W Zestaw SDK AFFDEX, który oferuje rozpoznawanie wielu twarzy w czasie rzeczywistym, uwaga jest oceniana wyłącznie na podstawie pozycji głowy, a uczestników uznaje się za nieuważnych, jeśli kąt pochylenia ich głowy przekroczy określony próg.

Przykład z pakietu AFFDEX SDK, systemu Affectiva, który wykorzystuje pozycję głowy jako wskaźnik uwagi. Źródło: https://www.youtube.com/watch?v=c2CWb5jHmbY
W 2019 współpraca Automatyczny pomiar uwagi wizualnej na treści wideo przy użyciu głębokiego uczenia sięzbiór danych obejmujący około 28,000 XNUMX uczestników został opisany pod kątem różnych zachowań wymagających skupienia uwagi, w tym odwracając wzrok, zamykanie oczulub angażując się niepowiązane działaniaoraz model CNN-LSTM wytrenowany w wykrywaniu uwagi skupionej na wyglądzie twarzy na przestrzeni czasu.

W artykule z 2019 r. zamieszczono przykład ilustrujący przewidywane stany uwagi widza oglądającego treści wideo. Źródło: https://www.jeffcohn.net/wp-content/uploads/2019/07/Attention-13.pdf.pdf
Autorzy zauważają jednak, że wcześniejsze wysiłki nie uwzględniały czynników specyficznych dla danego urządzenia, takich jak to, czy uczestnik korzystał z komputera stacjonarnego czy urządzenia mobilnego; nie brali też pod uwagę rozmiaru ekranu ani umiejscowienia kamery. Ponadto system AFFDEX koncentruje się wyłącznie na identyfikacji rozproszenia wzroku i pomija inne źródła rozproszenia, podczas gdy praca z 2019 r. próbuje wykryć szerszy zestaw zachowań – ale jej wykorzystanie pojedynczego płytkiego CNN mogą, jak stwierdzono w dokumencie, okazać się niewystarczające do wykonania tego zadania.
Autorzy zauważają, że niektóre z najpopularniejszych badań w tym obszarze nie są zoptymalizowane pod kątem testowania reklam, które mają inne potrzeby w porównaniu z takimi dziedzinami jak motoryzacja czy edukacja, gdzie rozmieszczenie i kalibracja kamery są zwykle ustalane z góry, zamiast tego polega się na niekalibrowanych konfiguracjach i działa w ograniczonym zakresie wzroku komputerów stacjonarnych i urządzeń mobilnych.
W związku z tym opracowali architekturę umożliwiającą wykrywanie uwagi widzów podczas wyświetlania reklam online, wykorzystującą dwa komercyjne zestawy narzędzi: AFFDEX 2.0 oraz Zestaw SDK SmartEye.

Przykłady analizy twarzy z AFFDEX 2.0. Źródło: https://arxiv.org/pdf/2202.12059
Wcześniejsze prace wyodrębniają dane niskiego poziomu cechy takie jak mimika twarzy, pozycja głowy i kierunek patrzenia. Następnie te cechy są przetwarzane w celu wytworzenia wskaźników wyższego poziomu, w tym pozycji patrzenia na ekranie; ziewania; i mówienia.
System identyfikuje cztery typy rozproszenia uwagi: spojrzenie poza ekranem; senność,; MówiącOraz ekrany bez nadzoru. Dostosowuje również analizę wzroku w zależności od tego, czy widz korzysta z komputera stacjonarnego czy urządzenia mobilnego.
Zestawy danych: Gaze
Autorzy wykorzystali cztery zestawy danych do opracowania i oceny systemu wykrywania uwagi: trzy skupiające się indywidualnie na zachowaniu wzroku, mówieniu i ziewaniu, a czwarty opracowany na podstawie rzeczywistych sesji testowania reklam, obejmujących mieszankę różnych typów rozproszenia uwagi.
Ze względu na szczególne wymagania pracy, dla każdej z tych kategorii stworzono niestandardowe zestawy danych. Wszystkie wybrane zestawy danych pochodziły z zastrzeżonego repozytorium zawierającego miliony nagranych sesji uczestników oglądających reklamy w domu lub w miejscu pracy, przy użyciu konfiguracji internetowej, ze świadomą zgodą – a ze względu na ograniczenia tych umów o zgodzie, autorzy stwierdzają, że zestawy danych dla nowej pracy nie mogą być udostępniane publicznie.
Aby zbudować spojrzenie zestaw danych, uczestników poproszono o śledzenie ruchomego punktu w różnych punktach na ekranie, w tym jego krawędziach, a następnie odwrócenie wzroku od ekranu w czterech kierunkach (w górę, w dół, w lewo i w prawo), przy czym sekwencja ta została powtórzona trzy razy. W ten sposób ustalono związek między przechwyceniem a pokryciem:

Zrzuty ekranu pokazujące bodziec wideo wzrokowy na (a) komputerze stacjonarnym i (b) urządzeniach mobilnych. Pierwsza i trzecia klatka wyświetlają instrukcje, aby podążać za ruchomym punktem, podczas gdy druga i czwarta zachęcają uczestników do odwrócenia wzroku od ekranu.
Segmenty ruchomych punktów oznaczono jako uważnegoi segmenty poza ekranem, jak nieuważny, tworząc oznaczony zbiór danych zawierający zarówno przykłady pozytywne, jak i negatywne.
Każdy film trwał około 160 sekund i przygotowano osobne wersje przeznaczone na platformy stacjonarne i mobilne, każda o rozdzielczości odpowiednio 1920×1080 i 608×1080.
Łącznie zebrano 609 filmów, w tym 322 nagrania z komputerów stacjonarnych i 287 nagrań z urządzeń mobilnych. Etykiety zostały zastosowane automatycznie na podstawie zawartości wideo i zestawu danych dzielić na 158 próbek szkoleniowych i 451 do testów.
Zestawy danych: Mówienie
W tym kontekście jednym z kryteriów definiujących „nieuwagę” jest sytuacja, gdy dana osoba mówi za dłużej niż jedna sekunda (co może być chwilowym komentarzem, a nawet kaszlem).
Ponieważ kontrolowane środowisko nie rejestruje ani nie analizuje dźwięku, mowę wnioskuje się poprzez obserwację wewnętrznego ruchu szacowanych punktów orientacyjnych twarzy. Dlatego w celu wykrycia Mówiąc bez dźwięku autorzy stworzyli zbiór danych oparty wyłącznie na danych wizualnych pochodzących z ich wewnętrznego repozytorium i podzielony na dwie części: pierwsza z nich zawierała około 5,500 filmów, każdy ręcznie oznaczony przez trzech adnotatorów jako mówiący lub niemówiący (z tego 4,400 wykorzystano do szkolenia i walidacji, a 1,100 do testowania).
Drugi obejmował 16,000 10,500 sesji automatycznie oznaczonych na podstawie typu sesji: 5,500 XNUMX uczestników programów fabularnych w ciszy oglądających reklamy i XNUMX uczestników programów wyrażających opinie na temat marek.
Zestawy danych: Ziewanie
Choć istnieją pewne „ziewające” zbiory danych, w tym Ziewnięcie oraz Zmęczenie kierowcyAutorzy twierdzą, że żaden z nich nie nadaje się do scenariuszy testowania reklam, ponieważ albo zawierają symulowane ziewa lub zawiera grymasy twarzy, które można pomylić z strach, lub inne czynności nie związane z ziewaniem.
Dlatego autorzy wykorzystali 735 filmów z wewnętrznej kolekcji, wybierając sesje, które prawdopodobnie będą zawierały szczęka opada trwający dłużej niż jedną sekundę. Każdy film został ręcznie oznaczony przez trzech adnotatorów jako pokazujący aktywny or ziewanie nieaktywneTylko 2.6 procent klatek zawierało aktywne ziewnięcia, co podkreśla nierównowagę klas, a zbiór danych podzielono na 670 filmów szkoleniowych i 65 do testowania.
Zestawy danych: Rozproszenie
roztargnienie zbiór danych został również pobrany z repozytorium testowania reklam autorów, gdzie uczestnicy oglądali rzeczywiste reklamy bez przypisanych zadań. Łącznie 520 sesji (193 w środowiskach mobilnych i 327 w środowiskach komputerowych) zostało wybranych losowo i ręcznie oznaczonych przez trzech adnotatorów jako uważnego or nieuważny.
Do zachowań nieuważnych zalicza się: spojrzenie poza ekranem, Mówiąc, senność, ekrany bez nadzoruSesje odbywają się w różnych regionach świata, przy czym częściej odbywają się nagrania z pulpitu, ze względu na możliwość elastycznego rozmieszczenia kamery internetowej.
Modele uwagi
Proponowany model uwagi przetwarza niskopoziomowe cechy wizualne, mianowicie mimikę twarzy, pozycję głowy i kierunek spojrzenia – wyodrębnione za pomocą wspomnianych wcześniej AFFDEX 2.0 i SmartEye SDK.
Są one następnie konwertowane na wskaźniki wysokiego poziomu, przy czym każdy czynnik rozpraszający jest obsługiwany przez oddzielny klasyfikator binarny trenowany na własnym zestawie danych w celu niezależnej optymalizacji i oceny.

Schemat proponowanego systemu monitorowania.
spojrzenie model określa, czy widz patrzy na ekran, czy od niego, używając znormalizowanych współrzędnych spojrzenia, z oddzielną kalibracją dla komputerów stacjonarnych i urządzeń mobilnych. Proces ten wspomagany jest przez liniowy Maszyna wektorów nośnych (SVM), trenowany na cechach przestrzennych i czasowych, który obejmuje okno pamięci aby złagodzić szybkie zmiany kierunku patrzenia.
Wykryć mówienie bez dźwięku, system używał przyciętych regionów ust i 3D-CNN trenowanych na konwersacyjnych i niekonwersacyjnych segmentach wideo. Etykiety były przypisywane na podstawie typu sesji, a wygładzanie czasowe zmniejszało fałszywe pozytywy, które mogą wynikać z krótkich ruchów ust.
Ziewanie wykryto, wykorzystując wycinki obrazu całej twarzy, aby uchwycić szerszy ruch twarzy, za pomocą sieci 3D-CNN trenowanej na ręcznie oznakowanych klatkach (choć zadanie to było skomplikowane ze względu na niską częstotliwość ziewania podczas naturalnego oglądania i jego podobieństwo do innych wyrazów twarzy).
Porzucenie ekranu zidentyfikowano na podstawie braku twarzy lub ekstremalnej pozycji głowy, a przewidywania oparto na drzewo decyzyjne.
Ostateczny status uwagi ustalono na podstawie ustalonej reguły: jeśli którykolwiek moduł wykrył nieuwagę, widz był oznaczany nieuważny – podejście stawiające na pierwszym miejscu wrażliwość i dostosowane osobno do kontekstów komputerów stacjonarnych i urządzeń mobilnych.
Testy
Jak wspomniano wcześniej, testy przeprowadzane są metodą ablacyjną, w której składniki są usuwane, a wpływ na wynik jest odnotowywany.

W badaniu zidentyfikowano różne kategorie postrzeganej nieuwagi.
Model spojrzenia identyfikował zachowania poza ekranem, wykonując trzy kluczowe kroki: normalizację surowych szacunków spojrzenia, dostrajanie wyników i szacowanie rozmiaru ekranu dla urządzeń stacjonarnych.
Aby zrozumieć znaczenie każdego komponentu, autorzy usunęli je indywidualnie i ocenili wydajność na 226 filmach na komputerach stacjonarnych i 225 filmach na urządzeniach mobilnych pochodzących z dwóch zestawów danych. Wyniki mierzone przez G-średnia oraz F1 wyniki przedstawiono poniżej:

Wyniki wskazujące na wydajność pełnego modelu spojrzenia, obok wersji, w których pominięto poszczególne kroki przetwarzania.
W każdym przypadku wydajność spadała, gdy pominięto krok. Normalizacja okazała się szczególnie cenna na komputerach stacjonarnych, gdzie rozmieszczenie kamery zmienia się bardziej niż na urządzeniach mobilnych.
W badaniu oceniono również, w jaki sposób cechy wizualne przewidują orientację kamery w telefonie komórkowym: położenie twarzy, pozycja głowy i spojrzenie oczu uzyskały odpowiednio 0.75, 0.74 i 0.60 punktów, a ich kombinacja osiągnęła wynik 0.91, co podkreśla – jak twierdzą autorzy – zaletę integrowania wielu wskazówek.
Mówiąc model, wyszkolony w zakresie pionowej odległości warg, osiągnął ROC-AUC wynoszący 0.97 w przypadku zestawu testowego z etykietami ręcznymi oraz 0.96 w przypadku większego zestawu danych z etykietami automatycznymi, co wskazuje na spójną wydajność w obu zestawach.
ziewanie model osiągnął ROC-AUC na poziomie 96.6 procent przy użyciu wyłącznie współczynnika kształtu ust, który poprawił się do 97.5 procent po połączeniu z jednostka akcji prognozy z AFFDEX 2.0.
Model ekranu bez nadzoru klasyfikował momenty jako nieuważny gdy zarówno AFFDEX 2.0, jak i SmartEye nie wykryły twarzy przez dłużej niż jedną sekundę. Aby ocenić ważność tego, autorzy ręcznie opisali wszystkie takie zdarzenia bez twarzy w prawdziwe rozproszenie zbiór danych, identyfikujący przyczynę leżącą u podstaw każdej aktywacji. Niejednoznaczne przypadki (takie jak zasłanianie kamery lub zniekształcenie wideo) zostały wyłączone z analizy.
Jak pokazano w poniższej tabeli wyników, tylko 27 procent aktywacji „bez użycia twarzy” było spowodowane fizycznym opuszczeniem ekranu przez użytkownika.

Różne powody, dla których w pewnych przypadkach nie odnaleziono twarzy.
Artykuł stwierdza:
„Mimo że ekrany pozostawione bez nadzoru stanowiły tylko 27% przypadków wywołujących sygnał braku twarzy, sygnał ten był aktywowany również z innych powodów wskazujących na nieuwagę, takich jak patrzenie przez uczestników poza ekran pod ekstremalnym kątem, wykonywanie nadmiernych ruchów lub znaczne zasłanianie twarzy przedmiotem/ręką”.
W ostatnim z testów ilościowych autorzy ocenili, w jaki sposób stopniowe dodawanie różnych sygnałów rozpraszających uwagę – patrzenia poza ekran (poprzez spojrzenie i pozycję głowy), senności, mówienia i niekorzystania z ekranów – wpływało na ogólną wydajność ich modelu uwagi.
Testy przeprowadzono na dwóch zbiorach danych: prawdziwe rozproszenie zbiór danych i podzbiór testowy spojrzenie zbiór danych. Do pomiaru wydajności wykorzystano wyniki G-mean i F1 (chociaż senność i mówienie zostały wyłączone z analizy zbioru danych dotyczących spojrzenia ze względu na ich ograniczone znaczenie w tym kontekście).
Jak pokazano poniżej, wykrywanie uwagi stale się poprawiało w miarę dodawania kolejnych typów rozpraszania uwagi, spojrzenie poza ekranem, najczęstszy czynnik rozpraszający uwagę, zapewniający najsilniejszą linię bazową.

Efekt dodania do architektury różnorodnych sygnałów rozpraszających uwagę.
W artykule napisano o tych wynikach:
„Na podstawie wyników możemy wywnioskować, że integracja wszystkich sygnałów rozpraszających przyczynia się do lepszego wykrywania uwagi.
Po drugie, poprawa wykrywania uwagi jest spójna zarówno na komputerach stacjonarnych, jak i urządzeniach mobilnych. Po trzecie, sesje mobilne w rzeczywistym zestawie danych wykazują znaczące ruchy głowy podczas patrzenia w bok, które są łatwo wykrywalne, co prowadzi do wyższej wydajności urządzeń mobilnych w porównaniu do komputerów stacjonarnych. Po czwarte, dodanie sygnału senności daje stosunkowo niewielką poprawę w porównaniu do innych sygnałów, ponieważ zwykle zdarza się to rzadko.
„Wreszcie, sygnał z ekranu pozostawionego bez nadzoru jest stosunkowo bardziej skuteczny na urządzeniach mobilnych w porównaniu do komputerów stacjonarnych, ponieważ urządzenia mobilne można łatwo pozostawić bez nadzoru”.
Autorzy porównali również swój model do AFFDEX 1.0, wcześniejszego systemu używanego w testach reklam – nawet wykrywanie wzroku na podstawie ruchu głowy w obecnym modelu przewyższyło AFFDEX 1.0 w przypadku obu typów urządzeń:
„Ta poprawa jest wynikiem uwzględnienia ruchów głowy zarówno w kierunku odchylenia, jak i pochylenia, a także normalizacji pozycji głowy w celu uwzględnienia drobnych zmian. Wyraźne ruchy głowy w rzeczywistym zestawie danych mobilnych sprawiły, że nasz model głowy działa podobnie do AFFDEX 1.0”.
Autorzy kończą artykuł (być może dość pobieżną) rundą testów jakościowych, przedstawioną poniżej.

Przykładowe wyniki modelu uwagi na komputerach stacjonarnych i urządzeniach mobilnych, przy czym w każdym wierszu znajdują się przykłady prawdziwych i fałszywych wyników pozytywnych dla różnych typów rozproszenia uwagi.
Autorzy stwierdzają:
„Wyniki wskazują, że nasz model skutecznie wykrywa różne czynniki rozpraszające w niekontrolowanych warunkach. Jednak czasami może generować fałszywe wyniki pozytywne w niektórych skrajnych przypadkach, takich jak silne przechylanie głowy przy jednoczesnym patrzeniu na ekran, pewne zatkanie ust, nadmiernie rozmazane oczy lub mocno zaciemnione obrazy twarzy”.
Podsumowanie
Chociaż wyniki stanowią wymierny, ale znaczący postęp w porównaniu z poprzednimi pracami, głębsza wartość badania leży w spojrzeniu, jakie oferuje ono na trwały pęd do dostępu do wewnętrznego stanu widza. Chociaż dane zostały zebrane za zgodą, metodologia wskazuje na przyszłe ramy, które mogłyby wykraczać poza ustrukturyzowane ustawienia badań rynkowych.
Tę dość paranoiczną konkluzję wzmacnia jeszcze bardziej odizolowany, ograniczony i zazdrośnie chroniony charakter tego konkretnego nurtu badań.
* Moja konwersja inline cytatów autorów na hiperłącza.
Pierwsze opublikowanie w środę, 9 kwietnia 2025 r.