Spojte se s námi

Andersonův úhel

Hledáme „sovy a ještěrky“ v publiku inzerenta

mm
Obrázky z článku „Monitoring Viewer Attention during Online Ads“ (https://arxiv.org/pdf/2504.06237)

Vzhledem k tomu, že sektor online reklamy je odhadované Vzhledem k tomu, že v roce 740.3 utratily 2023 miliardy USD, je snadné pochopit, proč reklamní společnosti investují značné prostředky do této konkrétní oblasti výzkumu počítačového vidění.

Ačkoli izolovaný a ochranný, průmysl občas publikuje studie, které naznačují pokročilejší vlastní práci v rozpoznávání obličeje a pohledu očí – včetně uznání věku, ústřední pro statistiky demografické analýzy:

Odhadování věku v kontextu in-the-wild reklamy je zajímavé pro inzerenty, kteří mohou cílit na konkrétní demografickou skupinu. V tomto experimentálním příkladu automatického odhadu věku obličeje je v průběhu let sledován věk performera Boba Dylana. Zdroj: https://arxiv.org/pdf/1906.03625

Odhadování věku v kontextu in-the-wild reklamy je zajímavé pro inzerenty, kteří mohou cílit na konkrétní věkovou demografickou skupinu. V tomto experimentálním příkladu automatického odhadu věku obličeje je v průběhu let sledován věk performera Boba Dylana. Zdroj: https://arxiv.org/pdf/1906.03625

Tyto studie, které se jen zřídka objevují ve veřejných repozitářích, jako je Arxiv, využívají legitimně naverbované účastníky jako základ pro analýzu řízenou umělou inteligencí, jejímž cílem je určit, do jaké míry a jakým způsobem divák zapojuje reklamu.

Dlibův histogram orientovaných gradientů (HoG) se často používá v systémech odhadu obličeje. Zdroj: https://www.computer.org/csdl/journal/ta/2017/02/07475863/13rRUNvyarN

Dlibův histogram orientovaných gradientů (HoG) se často používá v systémech pro odhad obličeje. Zdroj: https://www.computer.org/csdl/journal/ta/2017/02/07475863/13rRUNvyarN

Zvířecí instinkt

V tomto ohledu má reklamní průmysl přirozeně zájem na určování falešně pozitivních výsledků (případů, kdy analytický systém nesprávně interpretuje jednání subjektu) a na stanovení jasných kritérií pro to, kdy osoba sledující reklamy není s obsahem plně interagována.

Pokud jde o reklamu na obrazovkách, studie se obvykle zaměřují na dva problémy ve dvou prostředích. Těmito prostředími jsou „stolní počítače“ nebo „mobilní zařízení“, z nichž každé má specifické vlastnosti, které vyžadují řešení sledování na míru; a problémy – z pohledu inzerenta – jsou reprezentovány chování sovy a chování ještěrek – tendence diváků nevěnovat plnou pozornost reklamě, která je před nimi.

Příklady chování sovy a ještěrky v předmětu reklamního výzkumného projektu. Zdroj: https://arxiv.org/pdf/1508.04028

Příklady chování „sovy“ a „ještěrky“ v rámci výzkumného projektu v oblasti reklamy. Zdroj: https://arxiv.org/pdf/1508.04028

Pokud hledáte pryč z zamýšlené reklamy celou hlavou, jedná se o chování „sova“; pokud je vaše poloha hlavy statická, ale vaše oči jsou putování pryč z obrazovky se jedná o chování „ještěrky“. Z hlediska analytiky a testování nových reklam za kontrolovaných podmínek jsou to nezbytné akce, které musí systém zachytit.

Nový článek z akvizice Affectiva společností SmartEye se těmito problémy zabývá a nabízí architekturu, která využívá několik stávajících frameworků k poskytování kombinované a zřetězené sady funkcí napříč všemi požadovanými podmínkami a možnými reakcemi – a k rozpoznání, zda se divák nudí, je zaujatý nebo nějakým způsobem vzdálený obsahu, který si inzerent přeje, aby sledoval.

Příklady pravdivých a falešných pozitivních zjištění detekovaných novým systémem pozornosti pro různé signály rozptýlení, zobrazené samostatně pro stolní počítače a mobilní zařízení. Zdroj: https://arxiv.org/pdf/2504.06237

Příklady pravdivých a falešných pozitivních zjištění detekovaných novým systémem pozornosti pro různé signály rozptýlení, zobrazené samostatně pro stolní počítače a mobilní zařízení. Zdroj: https://arxiv.org/pdf/2504.06237

Autoři uvádějí*:

"Omezený výzkum se ponořil do sledování pozornosti během online reklam. Zatímco se tyto studie zaměřovaly na odhad polohy hlavy nebo směru pohledu k identifikaci případů odvráceného pohledu, neberou v úvahu kritické parametry, jako je typ zařízení (stolní nebo mobilní), umístění fotoaparátu vzhledem k obrazovce a velikost obrazovky. Tyto faktory významně ovlivňují detekci pozornosti.

„V tomto článku navrhujeme architekturu detekce pozornosti, která zahrnuje detekci různých rušivých vlivů, včetně chování sovy a ještěrek při pohledu mimo obrazovku, mluvení, ospalosti (prostřednictvím zívání a dlouhodobého zavření očí) a ponechání obrazovky bez dozoru.

„Na rozdíl od předchozích přístupů naše metoda integruje specifické vlastnosti zařízení, jako je typ zařízení, umístění kamery, velikost obrazovky (u stolních počítačů) a orientace kamery (u mobilních zařízení), s odhadem surového pohledu, aby se zvýšila přesnost detekce pozornosti.“

Jedno nová práce je s názvem Monitorování pozornosti diváků během online reklam, a pochází od čtyř výzkumníků z Affectiva.

Metoda a data

Z velké části kvůli utajení a uzavřené povaze těchto systémů nový článek neporovnává autorův přístup přímo s konkurenčními, ale prezentuje svá zjištění výhradně jako ablační studie; článek se ani obecně nedodržuje obvyklého formátu literatury o počítačovém vidění. Proto se na výzkum podíváme tak, jak je prezentován.

Autoři zdůrazňují, že pouze omezený počet studií se zabýval detekcí pozornosti konkrétně v kontextu online reklam. V AFFDEX SDK, která nabízí rozpoznávání více tváří v reálném čase, je pozornost odvozena pouze z pozice hlavy, přičemž účastníci jsou označeni jako nepozorní, pokud jejich úhel hlavy překročí definovanou hranici.

Příklad z AFFDEX SDK, systému Affectiva, který spoléhá na pozici hlavy jako indikátor pozornosti. Zdroj: https://www.youtube.com/watch?v=c2CWb5jHmbY

Příklad z AFFDEX SDK, systému Affectiva, který spoléhá na pozici hlavy jako indikátor pozornosti. Zdroj: https://www.youtube.com/watch?v=c2CWb5jHmbY

v 2019 spolupráce Automatické měření vizuální pozornosti videoobsahu pomocí hlubokého učení, datový soubor přibližně 28,000 XNUMX účastníků byl anotován pro různé nepozorné chování, včetně hledící pryč, zavírání očínebo se zapojit nesouvisející činnostia model CNN-LSTM vycvičený tak, aby v průběhu času detekoval pozornost od vzhledu obličeje.

Příklad z dokumentu z roku 2019 ilustrující předpokládané stavy pozornosti pro diváka sledujícího videoobsah na obrazovce. Zdroj: https://www.jeffcohn.net/wp-content/uploads/2019/07/Attention-13.pdf.pdf

Příklad z dokumentu z roku 2019 ilustrující předpokládané stavy pozornosti u diváka sledujícího videoobsah. Zdroj: https://www.jeffcohn.net/wp-content/uploads/2019/07/Attention-13.pdf.pdf

Autoři však pozorují, že tyto dřívější snahy nezohledňovaly faktory specifické pro zařízení, jako je to, zda účastník používal stolní nebo mobilní zařízení; nezohlednili ani velikost obrazovky nebo umístění fotoaparátu. Systém AFFDEX se navíc soustředí pouze na identifikaci odklonění pohledu a vynechává jiné zdroje rozptýlení, zatímco práce z roku 2019 se pokouší odhalit širší soubor chování – ale její použití jediné mělké CNN Papír uvádí, že mohly být pro tento úkol nedostatečné.

Autoři pozorují, že některé z nejpopulárnějších výzkumů v této řadě nejsou optimalizovány pro testování reklam, které má jiné potřeby ve srovnání s doménami, jako je řízení vozidel nebo vzdělávání – kde jsou umístění a kalibrace kamery obvykle předem stanoveny, místo toho se spoléhají na nekalibrovaná nastavení a fungují v omezeném rozsahu pohledu stolních a mobilních zařízení.

Proto vymysleli architekturu pro zjišťování pozornosti diváků během online reklam s využitím dvou komerčních sad nástrojů: AFFDEX 2.0 si SmartEye SDK.

Příklady analýzy obličeje z AFFDEX 2.0. Zdroj: https://arxiv.org/pdf/2202.12059

Příklady analýzy obličeje z AFFDEX 2.0. Zdroj: https://arxiv.org/pdf/2202.12059

Tyto předchozí práce extrahují nízkou úroveň funkce jako jsou výrazy obličeje, pozice hlavy a směr pohledu. Tyto funkce jsou poté zpracovány tak, aby vytvořily indikátory vyšší úrovně, včetně polohy pohledu na obrazovce; zívání; a mluvení.

Systém identifikuje čtyři typy rozptýlení: pohled mimo obrazovku; ospalost,; mluveníA bezobslužné obrazovky. Upravuje také analýzu pohledu podle toho, zda je divák na stolním nebo mobilním zařízení.

Datové sady: Pohled

Autoři použili čtyři datové sady k napájení a vyhodnocení systému detekce pozornosti: tři se zaměřovaly individuálně na chování při pohledu, mluvení a zívání; a čtvrtá byla získána z relace testování reklam v reálném světě, která obsahovala různé typy rozptýlení.

Vzhledem ke specifickým požadavkům práce byly pro každou z těchto kategorií vytvořeny vlastní datové sady. Všechny vybrané datové sady pocházely z proprietárního úložiště obsahujícího miliony zaznamenaných relací účastníků sledujících reklamy v domácím nebo pracovním prostředí pomocí webového nastavení s informovaným souhlasem – a vzhledem k omezením těchto dohod o souhlasu autoři uvádějí, že datové sady pro nové dílo nemohou být veřejně dostupné.

Ke konstrukci pohled datasetu byli účastníci požádáni, aby sledovali pohybující se bod přes různé body na obrazovce, včetně jejích okrajů, a poté se podívali od obrazovky ve čtyřech směrech (nahoru, dolů, doleva a doprava), přičemž sekvence se opakovala třikrát. Tímto způsobem byl stanoven vztah mezi zachycením a pokrytím:

Snímky obrazovek ukazující video podněty pohledu na (a) stolních počítačích a (b) mobilních zařízeních. První a třetí snímek zobrazuje pokyny, jak sledovat pohybující se bod, zatímco druhý a čtvrtý vyzve účastníky, aby odvrátili zrak od obrazovky.

Snímky obrazovek ukazující video podněty pohledu na (a) stolních počítačích a (b) mobilních zařízeních. První a třetí snímek zobrazuje pokyny, jak sledovat pohybující se bod, zatímco druhý a čtvrtý vyzve účastníky, aby odvrátili zrak od obrazovky.

Segmenty pohyblivých bodů byly označeny jako opatrnýa segmenty mimo obrazovku jako nepozorný, vytvářející označenou datovou sadu pozitivních i negativních příkladů.

Každé video trvalo přibližně 160 sekund, přičemž byly vytvořeny samostatné verze pro stolní a mobilní platformy, každá s rozlišením 1920 × 1080 a 608 × 1080.

Celkem bylo shromážděno 609 videí, z toho 322 záznamů z počítače a 287 záznamů z mobilních zařízení. Štítky byly aplikovány automaticky na základě obsahu videa a datové sady rozdělit do 158 tréninkových vzorků a 451 pro testování.

Datové sady: Mluvení

V této souvislosti je jedním z kritérií definujících „nepozornost“ to, kdy daná osoba mluví za delší než jedna sekunda (což může být chvilkový komentář, nebo dokonce kašel).

Vzhledem k tomu, že řízené prostředí nezaznamenává ani neanalyzuje zvuk, řeč je odvozena z pozorování vnitřního pohybu odhadovaných orientačních bodů obličeje. Proto detekovat mluvení bez zvuku vytvořili autoři datovou sadu založenou výhradně na vizuálním vstupu, čerpanou z jejich interního úložiště a rozdělenou do dvou částí: první z nich obsahovala přibližně 5,500 4,400 videí, každé ručně označili tři anotátoři jako mluvící nebo nemluvící (z toho 1,100 XNUMX bylo použito pro školení a ověřování a XNUMX XNUMX pro testování).

Druhá zahrnovala 16,000 10,500 relací automaticky označených podle typu relace: 5,500 XNUMX účastníků funkce tiše sledovalo reklamy a XNUMX XNUMX účastníků pořadů vyjadřujících názory na značky.

Datové sady: Zívání

I když existují některé „zející“ datové sady, včetně YawDD si Únava řidiče, autoři tvrdí, že žádný není vhodný pro scénáře testování reklam, protože oba obsahují simulované zívá nebo jinak obsahují zkroucení obličeje, se kterým by bylo možné zaměnit strach, nebo jiné, nezívající akce.

Autoři proto použili 735 videí ze své interní sbírky a vybrali relace, které pravděpodobně obsahují a pokles čelisti trvající déle než jednu sekundu. Každé video bylo ručně označeno třemi anotátory jako jedno z nich aktivní or neaktivní zívání. Pouze 2.6 procenta snímků obsahovalo aktivní zívání, což podtrhovalo třídní nerovnováhu, a soubor dat byl rozdělen do 670 tréninkových videí a 65 pro testování.

Datové sady: Rozptýlení

Jedno rozptýlení datový soubor byl také čerpán z autorského repozitáře pro testování reklam, kde si účastníci prohlíželi skutečné inzeráty bez přiřazených úkolů. Celkem 520 relací (193 na mobilních zařízeních a 327 na počítačích) bylo náhodně vybráno a ručně označeno třemi anotátory jako buď opatrný or nepozorný.

Včetně nepozorného chování pohled mimo obrazovku, mluvení, ospalost, a bezobslužné obrazovky. Relace pokrývají různé regiony po celém světě, přičemž nahrávky z počítače jsou běžnější díky flexibilnímu umístění webové kamery.

Pozor Modely

Navrhovaný model pozornosti zpracovává nízkoúrovňové vizuální rysy, konkrétně výrazy obličeje; pozice hlavy; a směr pohledu – extrahované prostřednictvím výše zmíněného AFFDEX 2.0 a SmartEye SDK.

Ty jsou poté převedeny na indikátory vysoké úrovně, přičemž každý distraktor zpracovává samostatný binární klasifikátor vyškolený na vlastní datové sadě pro nezávislou optimalizaci a vyhodnocení.

Schéma navrhovaného monitorovacího systému.

Schéma navrhovaného monitorovacího systému.

Jedno pohled Model určuje, zda se divák dívá na obrazovku nebo od ní pryč, pomocí normalizovaných souřadnic pohledu se samostatnou kalibrací pro stolní počítače a mobilní zařízení. Napomáhání tomuto procesu je lineární Podpora Vector Machine (SVM), vyškolený na prostorových a časových rysech, který zahrnuje a paměťové okno pro hladké rychlé přesuny pohledu.

Detekovat mluvení bez zvuku, systém používal oříznuté oblasti úst a 3D-CNN trénované na konverzační i nekonverzační segmenty videa. Štítky byly přiřazeny na základě typu relace, přičemž dočasné vyhlazování redukovalo falešné pozitivní výsledky, které mohou být důsledkem krátkých pohybů úst.

Zítra byl detekován pomocí oříznutí obrazu celé tváře k zachycení širšího pohybu obličeje pomocí 3D-CNN natrénovaného na ručně označených snímcích (ačkoli tento úkol byl komplikován nízkou frekvencí zívání při přirozeném zobrazení a jeho podobností s jinými výrazy).

Opuštění obrazovky byl identifikován absencí obličeje nebo extrémní polohy hlavy, s předpovědí provedenými a rozhodovací strom.

Konečný stav pozornosti byla určena pomocí pevného pravidla: pokud některý modul detekoval nepozornost, byl divák označen nepozorný – přístup upřednostňující citlivost a vyladěný samostatně pro prostředí stolních počítačů a mobilních zařízení.

Zkoušky

Jak již bylo zmíněno dříve, testy se řídí ablativní metodou, kdy jsou komponenty odstraněny a je zaznamenán účinek na výsledek.

Různé kategorie vnímané nepozornosti identifikované ve studii.

Různé kategorie vnímané nepozornosti identifikované ve studii.

Model pohledu identifikoval chování mimo obrazovku pomocí tří klíčových kroků: normalizace hrubých odhadů pohledu, jemné doladění výstupu a odhad velikosti obrazovky pro stolní zařízení.

Aby autoři pochopili důležitost každé komponenty, odstranili je jednotlivě a vyhodnotili výkon u 226 videí pro stolní počítače a 225 mobilních videí čerpaných ze dvou datových sad. Výsledky, měřeno podle G-střední si F1 skóre, jsou uvedeny níže:

Výsledky ukazující výkon modelu plného pohledu spolu s verzemi s odstraněnými jednotlivými kroky zpracování.

Výsledky ukazující výkon modelu plného pohledu spolu s verzemi s odstraněnými jednotlivými kroky zpracování.

V každém případě se výkon snížil, když byl vynechán krok. Normalizace se osvědčila zejména na stolních počítačích, kde se umístění kamer liší více než na mobilních zařízeních.

Studie také hodnotila, jak vizuální funkce předpovídaly orientaci mobilní kamery: poloha obličeje, pozice hlavy a pohled očí dosáhly skóre 0.75, 0.74 a 0.60, zatímco jejich kombinace dosáhla 0.91, což zvýrazňuje – autoři uvádějí – výhodu integrace více podnětů.

Jedno mluvení model, trénovaný na vertikální vzdálenost rtů, dosáhl a ROC-AUC 0.97 na ručně označené testovací sadě a 0.96 na větší automaticky označené datové sadě, což ukazuje na konzistentní výkon v obou.

Jedno zívání model dosáhl ROC-AUC 96.6 procenta při použití samotného poměru stran úst, který se zlepšil na 97.5 procenta v kombinaci s akční jednotka předpovědi z AFFDEX 2.0.

Model bezobslužné obrazovky klasifikoval okamžiky jako nepozorný když AFFDEX 2.0 i SmartEye nedokázaly detekovat obličej déle než jednu sekundu. Aby se posoudila platnost tohoto, autoři ručně anotovali všechny takové události bez tváře v skutečné rozptýlení datový soubor identifikující základní příčinu každé aktivace. Nejednoznačné případy (jako je obstrukce kamery nebo zkreslení videa) byly z analýzy vyloučeny.

Jak je uvedeno v tabulce s výsledky níže, pouze 27 procent aktivací „bez zobrazení obličeje“ bylo způsobeno fyzickým opuštěním obrazovky uživateli.

Různé získané důvody, proč nebyla v určitých případech nalezena tvář.

Různé získané důvody, proč nebyla v určitých případech nalezena tvář.

Článek uvádí:

„Přestože obrazovky bez dozoru tvořily pouze 27 % případů, kdy se signál „bez obličeje“ aktivoval, byl aktivován z jiných důvodů svědčících o nepozornosti, například když účastníci hleděli mimo obrazovku pod extrémním úhlem, prováděli nadměrné pohyby nebo si výrazně zakrývali obličej nějakým předmětem/rukou.“

V posledním z kvantitativních testů autoři hodnotili, jak postupné přidávání různých rušivých signálů – pohled mimo obrazovku (prostřednictvím pohledu a pozice hlavy), ospalost, mluvení a obrazovky bez dozoru – ovlivnilo celkový výkon jejich modelu pozornosti.

Testování bylo provedeno na dvou souborech dat: skutečné rozptýlení datovou sadu a testovací podmnožinu pohled datový soubor. K měření výkonu bylo použito skóre G-mean a F1 (ačkoli ospalost a mluvení byly vyloučeny z analýzy datového souboru pohledu, kvůli jejich omezené relevanci v tomto kontextu).

Jak je ukázáno níže, detekce pozornosti se konzistentně zlepšovala, když bylo přidáno více typů rozptýlení pohled mimo obrazovku, nejběžnější distraktor, poskytující nejsilnější základní linii.

Efekt přidání různých rušivých signálů do architektury.

Efekt přidání různých rušivých signálů do architektury.

Z těchto výsledků práce uvádí:

„Z výsledků můžeme nejprve usoudit, že integrace všech rozptylujících signálů přispívá k lepší detekci pozornosti.

„Zadruhé, zlepšení detekce pozornosti je konzistentní na stolních i mobilních zařízeních. Za třetí, mobilní relace v reálném datovém souboru ukazují významné pohyby hlavy při pohledu jinam, které lze snadno detekovat, což vede k vyššímu výkonu mobilních zařízení ve srovnání s desktopy. Za čtvrté, přidání signálu ospalosti má relativně mírné zlepšení ve srovnání s jinými signály, protože k tomu obvykle dochází zřídka.

„Signál bezobslužných obrazovek má na mobilních zařízeních relativně větší zlepšení ve srovnání se stolními počítači, protože mobilní zařízení lze snadno ponechat bez dozoru.“

Autoři také porovnali svůj model s AFFDEX 1.0, dřívějším systémem používaným při testování reklam – a dokonce i detekce pohledu na základě hlavy současného modelu překonala AFFDEX 1.0 na obou typech zařízení:

„Toto vylepšení je výsledkem zahrnutí pohybů hlavy ve směru stáčení i náklonu a také normalizace polohy hlavy s ohledem na drobné změny. Výrazné pohyby hlavy v reálném mobilním datovém souboru způsobily, že náš model hlavy funguje podobně jako v AFFDEX 1.0.“

Autoři práci uzavírají (možná spíše povrchním) kvalitativním testovacím kolem, jak je uvedeno níže.

Ukázkové výstupy z modelu pozornosti napříč stolními a mobilními zařízeními, přičemž každý řádek představuje příklady pravdivých a falešných pozitivních výsledků pro různé typy rozptýlení.

Ukázkové výstupy z modelu pozornosti napříč stolními a mobilními zařízeními, přičemž každý řádek představuje příklady pravdivých a falešných pozitivních výsledků pro různé typy rozptýlení.

Autoři uvádějí:

„Výsledky naznačují, že náš model účinně detekuje různé rušivé vlivy v nekontrolovaných podmínkách. V určitých okrajových případech však může občas vyvolat falešné poplachy, jako je silné naklánění hlavy při zachování pohledu na obrazovku, některé okluze úst, nadměrně rozmazané oči nebo silně ztmavené obličeje. '

Proč investovat do čističky vzduchu?

Zatímco výsledky představují měřený, ale smysluplný pokrok oproti předchozí práci, hlubší hodnota studie spočívá v nahlédnutí do trvalé snahy o přístup k divákovu vnitřnímu stavu. Přestože data byla shromážděna se souhlasem, metodika ukazuje na budoucí rámce, které by mohly přesahovat strukturovaná nastavení průzkumu trhu.

Tento poněkud paranoidní závěr je pouze podpořen uzavřenou, omezenou a žárlivě chráněnou povahou tohoto konkrétního směru výzkumu.

 

* Moje konverze citací autorů v textu na hypertextové odkazy.

Poprvé zveřejněno ve středu 9. dubna 2025