Andersons vinkel
Söker efter ‘Ugglor och Ödlor’ i en annonsörs publik

Eftersom den online-annonssektorn beräknas ha spenderat 740,3 miljarder USD 2023 är det lätt att förstå varför annonsföretag investerar betydande resurser i denna särskilda gren av datorseende-forskning.
Även om branschen är isolerad och skyddad publicerar den ibland studier som antyder mer avancerad proprietär forskning inom ansikts- och ögonrörelse-igenkänning – inklusive åldersigenkänning, central för demografiska analytikstatistik:

Att uppskatta ålder i en annonskontext är av intresse för annonsörer som kan rikta sig till en specifik demografisk grupp. I detta experimentella exempel på automatisk ansiktsåldersuppskattning spåras sångaren Bob Dylans ålder över åren. Källa: https://arxiv.org/pdf/1906.03625
Dessa studier, som sällan visas i offentliga repositorier som Arxiv, använder legitimt rekryterade deltagare som grund för AI-driven analys som syftar till att bestämma i vilken utsträckning, och på vilket sätt, tittaren engagerar sig i en annons.

Dlibs Histogram of Oriented Gradients (HoG) används ofta i ansiktsuppskattningsystem. Källa: https://www.computer.org/csdl/journal/ta/2017/02/07475863/13rRUNvyarN
Djurinstinkt
I detta avseende är det naturligt att annonsbranschen är intresserad av att bestämma falska positiva (tillfällen där ett analytiskt system missuppfattar en persons handlingar) och att fastställa tydliga kriterier för när personen som tittar på deras reklam inte är fullt engagerad i innehållet.
När det gäller skärm-baserad reklam tenderar studierna att fokusera på två problem i två miljöer. Miljöerna är ‘skrivbord’ eller ‘mobil’, var och en med sina egna karakteristika som kräver anpassade spårningslösningar; och problemen – ur annonsörens synvinkel – representeras av ugglebeteende och ödla-beteende – benägenheten hos tittare att inte uppmärksamma en annons som är framför dem.

Exempel på ‘Uggle’ och ‘Ödla’ beteende i en deltagare i en annonsforskningsprojekt. Källa: https://arxiv.org/pdf/1508.04028
Om du tittar bort från den avsedda annonsen med hela huvudet, är detta ‘ugglebeteende’; om din huvudpose är statisk men dina ögon vandrar bort från skärmen, är detta ‘ödla-beteende’. I termer av analyser och tester av nya annonser under kontrollerade förhållanden är dessa essentiella handlingar för ett system att kunna fånga.
En ny rapport från SmartEyes Affectiva-förvärv behandlar dessa frågor och erbjuder en arkitektur som utnyttjar flera befintliga ramverk för att tillhandahålla en kombinerad och sammanfogad funktionssats över alla nödvändiga villkor och möjliga reaktioner – och för att kunna avgöra om en tittare är uttråkad, engagerad eller på något sätt avlägsen från innehållet som annonsören önskar att de ska titta på.

Exempel på sanna och falska positiva som upptäckts av det nya uppmärksamhetssystemet för olika distraktions-signaler, visade separat för skrivbord och mobila enheter. Källa: https://arxiv.org/pdf/2504.06237
Författarna skriver:
‘Begränsad forskning har undersökt uppmärksamhet under online-annonser. Medan dessa studier fokuserade på att uppskatta huvudpose eller blickriktning för att identifiera tillfällen av avledande blick, försummar de viktiga parametrar som enhetstyp (skrivbord eller mobil), kameraplacering i förhållande till skärmen och skärmstorlek. Dessa faktorer påverkar avsevärt uppmärksamhetsdetektering.
‘I denna rapport föreslår vi en arkitektur för uppmärksamhetsdetektering som omfattar detektering av olika distraktorer, inklusive både uggle- och ödla-beteendet att titta bort från skärmen, tala, dåsighet (genom gäspning och förlängd ögonstängning) och lämna skärmen oövervakad.
‘Till skillnad från tidigare tillvägagångssätt integrerar vår metod enhetsspecifika funktioner som enhetstyp, kameraplacering, skärmstorlek (för skrivbord) och kameravinkel (för mobila enheter) med den rena blickuppskattningen för att förbättra uppmärksamhetsdetekteringsnoggrannheten.’
Den nya rapporten heter Övervakning av tittaruppmärksamhet under online-annonser och kommer från fyra forskare på Affectiva.
Metod och data
Till stor del på grund av hemlighets- och slutna systemets natur presenterar den nya rapporten inte författarnas tillvägagångssätt direkt med rivaler, utan presenterar sina resultat uteslutande som ablationsstudier; rapporten följer inte heller den vanliga formatet för datorseende-litteratur. Därför ska vi titta på forskningen som den presenteras.
Författarna betonar att endast ett begränsat antal studier har behandlat uppmärksamhetsdetektering specifikt i sammanhang med online-annonser. I AFFDEX SDK, som erbjuder realtids-multipelansiktsigenkänning, antas uppmärksamhet enbart från huvudpose, med deltagare som märks ouppmärksamma om deras huvudvinkel passerar en definierad tröskel.

Ett exempel från AFFDEX SDK, ett Affectiva-system som förlitar sig på huvudpose som en indikator på uppmärksamhet. Källa: https://www.youtube.com/watch?v=c2CWb5jHmbY
I 2019-samarbetet Automatisk mätning av visuell uppmärksamhet till videoinnehåll med hjälp av djupinlärning, en dataset på cirka 28 000 deltagare annoterades för olika ouppmärksamma beteenden, inklusive att titta bort, att stänga ögonen eller att engagera sig i orelaterade aktiviteter, och en CNN-LSTM-modell tränades för att upptäcka uppmärksamhet från ansiktsutseende över tid.

Från 2019-rapporten, ett exempel som visar förutsagda uppmärksamhetslägen för en tittare som tittar på videoinnehåll. Källa: https://www.jeffcohn.net/wp-content/uploads/2019/07/Attention-13.pdf.pdf
Men författarna observerar att dessa tidigare ansträngningar inte tog hänsyn till enhetsspecifika faktorer, som om deltagaren använde en skrivbords- eller mobil enhet; eller om de övervägde skärmstorlek eller kameraplacering. Dessutom fokuserar AFFDEX-systemet enbart på att identifiera blickavledning och utelämnar andra källor till distraktion, medan 2019-arbetet försöker upptäcka ett bredare urval av beteenden – men dess användning av en enda grunt CNN kan, enligt rapporten, ha varit otillräcklig för denna uppgift.
Författarna observerar att några av de mest populära forskningarna inom detta område inte är optimerade för annons-testning, som har olika behov jämfört med områden som körning eller utbildning – där kameraplacering och kalibrering vanligtvis är fasta i förväg, och som istället förlitar sig på okalibrerade inställningar, och som fungerar inom den begränsade blickomfånget för skrivbords- och mobila enheter.
Därför har de utvecklat en arkitektur för att upptäcka tittaruppmärksamhet under online-annonser, som utnyttjar två kommersiella verktyg: AFFDEX 2.0 och SmartEye SDK.

Exempel på ansiktsanalys från AFFDEX 2.0. Källa: https://arxiv.org/pdf/2202.12059
Dessa tidigare arbeten extraherar lågnivåfunktioner som ansiktsuttryck, huvudpose och blickriktning. Dessa funktioner bearbetas sedan för att producera högnivåindikatorer, inklusive blickposition på skärmen; gäspning; och tala.
Systemet identifierar fyra typer av distraktion: blick bort från skärmen; dåsighet,; tala; och oövervakad skärm. Det justerar också blickanalysen beroende på om tittaren är på en skrivbords- eller mobil enhet.
Dataset: Blick
Författarna använde fyra dataset för att driva och utvärdera uppmärksamhetsdetekteringssystemet: tre som fokuserade individuellt på blickbeteende, tala och gäspning; och en fjärde som togs från verkliga annons-testsessioner som innehöll en blandning av distraktionstyper.
På grund av de specifika kraven för arbetet skapades anpassade dataset för var och en av dessa kategorier. Alla dataset samlades in från en proprietär repository som innehåller miljontals inspelade sessioner av deltagare som tittar på annonser i hem- eller arbetsmiljöer, med informerat samtycke – och på grund av begränsningarna i dessa samtyckesavtal, kan dataseten för det nya arbetet inte göras offentligt tillgängliga.
För att konstruera blick-datasetet, bad deltagarna att följa en rörlig punkt över olika punkter på skärmen, inklusive dess kanter, och sedan att titta bort från skärmen i fyra riktningar (upp, ner, vänster och höger) med sekvensen upprepad tre gånger. På detta sätt etablerades relationen mellan fångst och täckning:

Skärmbilder som visar blickvideo-stimulansen på (a) skrivbord och (b) mobila enheter. Den första och tredje ramen visar instruktioner för att följa en rörlig punkt, medan den andra och fjärde instruktionerna ber deltagarna att titta bort från skärmen.
De rörliga punkts-segmenten märktes som uppmärksamma, och de bort från skärmen-segmenten som ouppmärksamma, vilket resulterade i en märkt dataset med både positiva och negativa exempel.
Varje video varade cirka 160 sekunder, med separata versioner skapade för skrivbords- och mobilplattformar, med upplösningar på 1920×1080 respektive 608×1080.
Totalt samlades 609 videor in, bestående av 322 skrivbords- och 287 mobilinspelningar. Etiketter tilldelades automatiskt baserat på videoinnehållet, och dataseten delades in i 158 träningsprover och 451 för testning.
Dataset: Tala
I detta sammanhang är en av kriterierna för ‘ouppmärksamhet’ när en person talar i längre än en sekund (vilket kan vara ett tillfälligt kommentar, eller till och med en hostning).
Eftersom den kontrollerade miljön inte spelar in eller analyserar ljud, antas tala genom att observera inre rörelse av uppskattade ansiktslandmärken. Därför skapades en dataset baserad enbart på visuell input, dragen från deras interna repository, och delad i två delar: den första innehöll cirka 5 500 videor, var och en manuellt märkt av tre annotatorer som antingen tala eller inte tala (av dessa användes 4 400 för tränings- och valideringsändamål, och 1 100 för testning).
Den andra bestod av 16 000 sessioner som automatiskt märktes baserat på sessionstyp: 10 500 visade deltagare som tyst tittade på annonser, och 5 500 visade deltagare som uttryckte åsikter om varumärken.
Dataset: Gäspning
Medan några ‘gäspnings’-dataset finns, inklusive YawDD och Driver Fatigue, hävdar författarna att ingen av dem är lämplig för annons-testscenarier, eftersom de antingen innehåller simulerad gäspning eller ansiktsförvridningar som kan förväxlas med rädsla eller andra, icke-gäspande handlingar.
Därför använde författarna 735 videor från deras interna samling, och valde sessioner som sannolikt innehöll en gapande som varade mer än en sekund. Varje video märktes manuellt av tre annotatorer som antingen aktiv eller inaktiv gäspning. Endast 2,6 procent av ramarna innehöll aktiva gäspningar, vilket underströk klassobalansen, och dataseten delades in i 670 träningsvideor och 65 för testning.
Dataset: Distraktion
Distraktions-dataseten togs också från författarnas annons-testrepository, där deltagare hade tittat på riktiga annonser utan tilldelade uppgifter. Totalt 520 sessioner (193 på mobila och 327 på skrivbordsmiljöer) valdes slumpmässigt och märktes manuellt av tre annotatorer som antingen uppmärksamma eller ouppmärksamma.
Ouppmärksamhet inkluderade blick bort från skärmen, tala, dåsighet, och oövervakad skärm. Sessionerna spänner över olika regioner i världen, med skrivbordsinspelningar vanligare på grund av flexibel webbkameraplacering.
Uppmärksamhetsmodeller
Den föreslagna uppmärksamhetsmodellen bearbetar lågnivåvisuella funktioner, nämligen ansiktsuttryck; huvudpose; och blickriktning – extraherade genom ovannämnda AFFDEX 2.0 och SmartEye SDK.
Dessa omvandlas sedan till högnivåindikatorer, med varje distraktor hanterad av en separat binär klassificerare tränad på sin egen dataset för oberoende optimering och utvärdering.

Schema för det föreslagna övervakningssystemet.
Blick-modellen bestämmer om tittaren tittar på eller bort från skärmen med hjälp av normaliserade blickkoordinater, med separat kalibrering för skrivbords- och mobila enheter. Detta process understöds av en linjär Support Vector Machine (SVM), tränad på rumsliga och temporala funktioner, som inkorporerar ett minnesfönster för att jämna ut snabba blickförändringar.
För att upptäcka tala utan ljud användes systemet avskurna munområden och en 3D-CNN tränad på både konversations- och icke-konversationsvideosegment. Etiketter tilldelades baserat på sessionstyp, med temporalt glättande som minskar de falska positiva som kan resultera från korta munrörelser.
Gäspning upptäcktes med hjälp av fullständiga ansiktsbilder, för att fånga en bredare ansiktsrörelse, med en 3D-CNN tränad på manuellt märkta ramar (även om uppgiften komplicerades av gäspningens låga frekvens i naturlig tittning, och dess likhet med andra uttryck).
Oövervakad skärm identifierades genom avsaknad av ansikte eller extrem huvudpose, med förutsägelser gjorda av ett besluts-träd.
Slutlig uppmärksamhetsstatus bestämdes med hjälp av en fast regel: om någon modul upptäckte ouppmärksamhet, märktes tittaren som ouppmärksam – ett tillvägagångssätt som prioriterar känslighet, och justeras separat för skrivbords- och mobila sammanhang.
Tester
Som nämnts tidigare följer testerna en ablativ metod, där komponenter tas bort och effekten på resultatet noteras.

Olika kategorier av uppfattad ouppmärksamhet som identifierats i studien.
Blickmodellen identifierade bort från skärmen-beteende genom tre nyckelsteg: normalisering av råa blickuppskattningar, finjustering av utdata, och uppskattning av skärmstorlek för skrivbordsenheter.
För att förstå vikten av varje komponent tog författarna bort dem individuellt och utvärderade prestanda på 226 skrivbords- och 225 mobila videor dragna från två dataset. Resultat, mätta med G-mean och F1 poäng, visas nedan:

Resultat som visar prestandan för den fullständiga blickmodellen, tillsammans med versioner med individuella bearbetningssteg borttagna.
I alla fall minskade prestandan när ett steg togs bort. Normalisering visade sig vara särskilt värdefullt på skrivbord, där kameraplacering varierar mer än på mobila enheter.
Studien utvärderade också hur visuella funktioner förutsåg mobil kameravinkel: ansiktsplacering, huvudpose och ögonblick nådde 0,75, 0,74 och 0,60, medan deras kombination nådde 0,91, vilket – enligt författarna – underströk fördelen med att integrera flera ledtrådar.
Tala-modellen, tränad på vertikal läppavstånd, uppnådde en ROC-AUC på 0,97 på det manuellt märkta testsetet, och 0,96 på det större automatiskt märkta datasetet, vilket indikerar konsekvent prestanda över båda.
Gäspning-modellen nådde en ROC-AUC på 96,6 procent med munstorleksförhållande ensamt, vilket förbättrades till 97,5 procent när det kombinerades med åtgärdseenhets förutsägelser från AFFDEX 2.0.
Oövervakad skärm-modellen klassificerade ögonblick som ouppmärksamma när både AFFDEX 2.0 och SmartEye misslyckades med att upptäcka ett ansikte i mer än en sekund. För att utvärdera detta märkte författarna manuellt alla sådana inga-ansikts-händelser i riktig distraktion-datasetet, och identifierade den underliggande orsaken till varje aktivering. Tvetydiga fall (såsom kameraobstruktion eller videoförvrängning) uteslöts från analysen.
Som visas i resultattabellen nedan var endast 27 procent av ‘inga-ansikts’-aktiveringar orsakade av användare som fysiskt lämnade skärmen.

Varierade orsaker till varför ett ansikte inte hittades, i vissa fall.
Rapporten hävdar:
‘Trots att oövervakade skärmar utgjorde endast 27 procent av fallen som utlöste inga-ansikts-signalen, utlöstes den för andra orsaker som tyder på ouppmärksamhet, såsom deltagare som tittade bort från skärmen med en extrem vinkel, gjorde överdriven rörelse eller täckte sitt ansikte avsevärt med ett föremål/hand.’
I den sista av de kvantitativa testerna utvärderade författarna hur progressivt lägga till olika distraktions-signaler – bort från skärmen-blick (via blick och huvudpose), dåsighet, tala och oövervakad skärm – påverkade den övergripande prestandan för deras uppmärksamhetsmodell.
Testning utfördes på två dataset: riktig distraktion-datasetet och en test-subset av blick-datasetet. G-mean och F1-poäng användes för att mäta prestanda (även om dåsighet och tala uteslöts från blick-dataset-analysen på grund av deras begränsade relevans i detta sammanhang).
Som visas nedan förbättrades uppmärksamhetsdetektering konsekvent när fler distraktionstyper lades till, med bort från skärmen-blick som den vanligaste distraktorn, och som gav den starkaste baslinjen.

Effekten av att lägga till olika distraktions-signaler till arkitekturen.
Av dessa resultat hävdar rapporten:
‘Från resultaten kan vi först dra slutsatsen att integrationen av alla distraktions-signaler bidrar till förbättrad uppmärksamhetsdetektering.
‘För det andra är förbättringen av uppmärksamhetsdetektering konsekvent över både skrivbords- och mobila enheter. För det tredje visar de mobila sessionerna i den riktiga dataseten betydande huvudrörelser när de tittar bort, vilket lätt kan upptäckas, vilket leder till bättre prestanda för mobila enheter jämfört med skrivbord. För det fjärde har tillägget av dåsighetssignalen en relativt liten förbättring jämfört med andra signaler, eftersom det sällan inträffar.
‘Slutligen har den oövervakade skärmen-signalen en relativt större förbättring på mobila enheter jämfört med skrivbord, eftersom mobila enheter lätt kan lämnas oövervakade.’
Författarna jämförde också sin modell med AFFDEX 1.0, en tidigare system som användes i annons-testning – och till och med den nuvarande modellens huvud-baserad blickdetektering överträffade AFFDEX 1.0 över båda enhetstyper:
‘Denna förbättring är ett resultat av att huvudrörelser i både yaw- och pitch-riktning integreras, samt normalisering av huvudpose för att ta hänsyn till små förändringar. De uttalade huvudrörelserna i den riktiga mobila dataseten har orsakat att vår huvudmodell presterar liknande AFFDEX 1.0.’
Författarna avslutar rapporten med en (kanske ganska perfunctorisk) kvalitativ testomgång, som visas nedan.

Exempel på utdata från uppmärksamhetsmodellen över skrivbords- och mobila enheter, med varje rad som visar exempel på sanna och falska positiva för olika distraktions-typer.
Författarna hävdar:
‘Resultaten visar att vår modell effektivt upptäcker olika distraktorer i okontrollerade miljöer. Men den kan ibland producera falska positiva i vissa extrema fall, såsom kraftig huvudlutning medan man behåller blicken på skärmen, vissa mun-occlusioner, extremt suddiga ögon eller kraftigt mörka ansiktsbilder. ‘
Slutsats
Medan resultaten representerar en måttlig men meningsfull framsteg jämfört med tidigare arbeten, ligger det djupare värdet av studien i den glimt den erbjuder av den bestående drivkraften att komma åt tittarens inre tillstånd. Även om data samlades in med samtycke, pekar metodiken mot framtida ramverk som kan utvidgas bortom strukturerade, marknadsundersökningsmiljöer.
Denna ganska paranoida slutsats förstärks av den isolerade, begränsade och skyddade naturen av denna särskilda gren av forskning.
* Min omvandling av författarnas inline-citat till hyperlänkar.
Publicerad första gången onsdag, 9 april 2025












