L'angolo di Anderson
Alla ricerca di "Gufi e lucertole" nel pubblico di un inserzionista

Poiché il settore della pubblicità online è stimato Considerando che nel 740.3 sono stati spesi 2023 miliardi di dollari, è facile capire perché le aziende pubblicitarie investano notevoli risorse in questo particolare filone di ricerca sulla visione artificiale.
Sebbene insulare e protettiva, l’industria di tanto in tanto pubblica studi che suggeriscono un lavoro proprietario più avanzato nel riconoscimento facciale e dello sguardo, incluso riconoscimento dell'età , centrale per le statistiche di analisi demografica:

Stimare l'età in un contesto pubblicitario "in-the-wild" è di interesse per gli inserzionisti che potrebbero rivolgersi a una fascia demografica specifica. In questo esempio sperimentale di stima automatica dell'età facciale, l'età dell'artista Bob Dylan viene monitorata nel corso degli anni. Fonte: https://arxiv.org/pdf/1906.03625
Questi studi, che raramente compaiono in archivi pubblici come Arxiv, utilizzano partecipanti reclutati legittimamente come base per un'analisi basata sull'intelligenza artificiale che mira a determinare in che misura e in che modo lo spettatore interagisce con un annuncio pubblicitario.

L'istogramma dei gradienti orientati (HoG) di Dlib è spesso utilizzato nei sistemi di stima facciale. Fonte: https://www.computer.org/csdl/journal/ta/2017/02/07475863/13rRUNvyarN
Istinto animale
A questo proposito, naturalmente, l'industria pubblicitaria è interessata a determinare i falsi positivi (occasioni in cui un sistema analitico interpreta male le azioni di un soggetto) e a stabilire criteri chiari per stabilire quando la persona che guarda i loro spot pubblicitari non è pienamente coinvolta dal contenuto.
Per quanto riguarda la pubblicità su schermo, gli studi tendono a concentrarsi su due problemi in due ambienti. Gli ambienti sono "desktop" o "mobile", ognuno dei quali presenta caratteristiche specifiche che richiedono soluzioni di tracciamento personalizzate; e i problemi – dal punto di vista dell'inserzionista – sono rappresentati da comportamento del gufo e comportamento della lucertola – la tendenza degli spettatori a non prestare la massima attenzione a un annuncio pubblicitario che hanno di fronte.

Esempi di comportamento di "Gufo" e "Lucertola" in un oggetto di un progetto di ricerca pubblicitaria. Fonte: https://arxiv.org/pdf/1508.04028
Se stai cercando lontano dalla pubblicità prevista con tutta la testa, questo è un comportamento da "gufo"; se la posa della testa è statica ma i tuoi occhi sono allontanarsi Dallo schermo, questo è un comportamento "lucertola". In termini di analisi e test di nuove pubblicità in condizioni controllate, queste sono azioni essenziali che un sistema deve essere in grado di catturare.
Un nuovo documento derivante dall'acquisizione di Affectiva da parte di SmartEye affronta queste problematiche, proponendo un'architettura che sfrutta diversi framework esistenti per fornire un set di funzionalità combinato e concatenato per tutte le condizioni richieste e le possibili reazioni, e per essere in grado di capire se uno spettatore è annoiato, coinvolto o in qualche modo distante dal contenuto che l'inserzionista desidera che guardi.

Esempi di veri e falsi positivi rilevati dal nuovo sistema di attenzione per vari segnali di distrazione, mostrati separatamente per dispositivi desktop e mobili. Fonte: https://arxiv.org/pdf/2504.06237
Gli autori affermano*:
'Limitato riparazioni ha approfondito il monitoraggio dell'attenzione durante le pubblicità online. Sebbene questi studi si siano concentrati sulla stima della posizione della testa o della direzione dello sguardo per identificare i casi di sguardo deviato, ignorano parametri critici come il tipo di dispositivo (desktop o mobile), il posizionamento della fotocamera rispetto allo schermo e le dimensioni dello stesso. Questi fattori influenzano significativamente il rilevamento dell'attenzione.
In questo articolo proponiamo un'architettura per il rilevamento dell'attenzione che comprende il rilevamento di vari fattori di distrazione, tra cui il comportamento tipico del gufo e della lucertola, che consiste nello guardare fuori dallo schermo, nel parlare, nella sonnolenza (attraverso sbadigli e chiusura prolungata degli occhi) e nel lasciare lo schermo incustodito.
"A differenza degli approcci precedenti, il nostro metodo integra caratteristiche specifiche del dispositivo, come il tipo di dispositivo, il posizionamento della fotocamera, le dimensioni dello schermo (per i desktop) e l'orientamento della fotocamera (per i dispositivi mobili) con la stima grezza dello sguardo per migliorare la precisione del rilevamento dell'attenzione."
. nuovo lavoro è intitolato Monitoraggio dell'attenzione degli spettatori durante gli annunci onlinee proviene da quattro ricercatori di Affectiva.
Metodo e dati
A causa soprattutto della segretezza e della natura closed-source di tali sistemi, il nuovo articolo non confronta direttamente l'approccio degli autori con quello dei concorrenti, ma presenta i suoi risultati esclusivamente come studi di ablazione; inoltre, l'articolo non aderisce in generale al formato consueto della letteratura sulla Computer Vision. Pertanto, esamineremo la ricerca così come viene presentata.
Gli autori sottolineano che solo un numero limitato di studi ha affrontato il rilevamento dell'attenzione specificamente nel contesto degli annunci online. SDK AFFDEX, che offre il riconoscimento multi-facciale in tempo reale, l'attenzione viene dedotta esclusivamente dalla posizione della testa e i partecipanti vengono etichettati come disattenti se l'angolazione della loro testa supera una soglia definita.

Un esempio dall'AFFDEX SDK, un sistema Affectiva che si basa sulla posizione della testa come indicatore di attenzione. Fonte: https://www.youtube.com/watch?v=c2CWb5jHmbY
Nel Collaborazione 2019 Misurazione automatica dell'attenzione visiva ai contenuti video mediante Deep Learning, un set di dati di circa 28,000 partecipanti è stato annotato per vari comportamenti disattenti, tra cui guardando lontano, chiudendo gli occhi, o impegnarsi in attività non correlatee un modello CNN-LSTM addestrato per rilevare l'attenzione in base all'aspetto del viso nel tempo.

Dal documento del 2019, un esempio che illustra gli stati di attenzione previsti per uno spettatore che guarda contenuti video. Fonte: https://www.jeffcohn.net/wp-content/uploads/2019/07/Attention-13.pdf.pdf
Tuttavia, osservano gli autori, questi studi precedenti non tenevano conto di fattori specifici del dispositivo, come l'utilizzo di un computer fisso o di un dispositivo mobile da parte del partecipante; né consideravano le dimensioni dello schermo o il posizionamento della fotocamera. Inoltre, il sistema AFFDEX si concentra solo sull'identificazione della distrazione dello sguardo e omette altre fonti di distrazione, mentre il lavoro del 2019 cerca di rilevare un insieme più ampio di comportamenti, ma il suo utilizzo di un singolo sensore superficiale... CNN potrebbe, afferma il documento, essere stato inadeguato per questo compito.
Gli autori osservano che alcune delle ricerche più popolari in questo ambito non sono ottimizzate per i test pubblicitari, che hanno esigenze diverse rispetto ad ambiti come la guida o l'istruzione, in cui il posizionamento e la calibrazione della telecamera vengono solitamente stabiliti in anticipo, basandosi invece su configurazioni non calibrate e operando all'interno del raggio di visione limitato dei dispositivi desktop e mobili.
Per questo motivo hanno ideato un'architettura per rilevare l'attenzione degli spettatori durante le pubblicità online, sfruttando due toolkit commerciali: AFFDEX 2.0 e SmartEye SDK.

Esempi di analisi facciale da AFFDEX 2.0. Fonte: https://arxiv.org/pdf/2202.12059
Questi lavori precedenti estraggono informazioni di basso livello Caratteristiche come espressioni facciali, posizione della testa e direzione dello sguardo. Queste caratteristiche vengono poi elaborate per produrre indicatori di livello superiore, tra cui la posizione dello sguardo sullo schermo, lo sbadiglio e il parlare.
Il sistema identifica quattro tipi di distrazione: sguardo fuori campo; sonnolenza,; parlando, E schermi incustoditiRegola inoltre l'analisi dello sguardo a seconda che l'osservatore stia utilizzando un computer desktop o un dispositivo mobile.
Set di dati: Gaze
Per potenziare e valutare il sistema di rilevamento dell'attenzione, gli autori hanno utilizzato quattro set di dati: tre incentrati individualmente sul comportamento dello sguardo, sul parlare e sullo sbadigliare; e un quarto tratto da sessioni di test pubblicitari nel mondo reale, contenenti un mix di tipi di distrazione.
A causa dei requisiti specifici del lavoro, sono stati creati set di dati personalizzati per ciascuna di queste categorie. Tutti i set di dati selezionati provengono da un repository proprietario contenente milioni di sessioni registrate di partecipanti che guardavano pubblicità in ambienti domestici o lavorativi, utilizzando una configurazione basata sul web, con il consenso informato. A causa delle limitazioni di tali accordi di consenso, gli autori dichiarano che i set di dati per il nuovo lavoro non possono essere resi pubblici.
Per costruire il guardare fisso In un dataset, ai partecipanti è stato chiesto di seguire un punto in movimento attraverso vari punti dello schermo, compresi i bordi, e poi di guardare lontano dallo schermo in quattro direzioni (su, giù, sinistra e destra) ripetendo la sequenza tre volte. In questo modo, è stata stabilita la relazione tra cattura e copertura:

Screenshot che mostrano lo stimolo video dello sguardo su (a) computer desktop e (b) dispositivi mobili. Il primo e il terzo frame mostrano le istruzioni per seguire un punto in movimento, mentre il secondo e il quarto invitano i partecipanti a distogliere lo sguardo dallo schermo.
I segmenti dei punti mobili sono stati etichettati come attento, e i segmenti fuori campo come disattento, producendo un set di dati etichettato di esempi sia positivi che negativi.
Ogni video durava circa 160 secondi ed erano disponibili versioni separate per le piattaforme desktop e mobile, ciascuna con una risoluzione rispettivamente di 1920×1080 e 608×1080.
Sono stati raccolti 609 video, di cui 322 registrati su computer desktop e 287 su dispositivi mobili. Le etichette sono state applicate automaticamente in base al contenuto video e al set di dati. dividere in 158 campioni di addestramento e 451 per i test.
Set di dati: Parlando
In questo contesto, uno dei criteri che definiscono la "disattenzione" è quando una persona parla per più lungo di un secondo (in tal caso potrebbe trattarsi di un commento momentaneo o anche di un colpo di tosse).
Poiché l'ambiente controllato non registra né analizza l'audio, il parlato viene dedotto osservando il movimento interno dei punti di riferimento facciali stimati. Pertanto, per rilevare parlando senza audio, gli autori hanno creato un set di dati basato interamente su input visivi, tratti dal loro repository interno e suddivisi in due parti: la prima di queste conteneva circa 5,500 video, ciascuno etichettato manualmente da tre annotatori come parlante o non parlante (di questi, 4,400 sono stati utilizzati per l'addestramento e la convalida e 1,100 per i test).
La seconda comprendeva 16,000 sessioni etichettate automaticamente in base al tipo di sessione: 10,500 partecipanti guardavano in silenzio gli annunci pubblicitari e 5,500 partecipanti esprimevano opinioni sui marchi.
Set di dati: Sbadigliare
Sebbene esistano alcuni set di dati "sbadigli", tra cui YawDD e Affaticamento del conducente, gli autori affermano che nessuno di essi è adatto per gli scenari di test degli annunci, poiché presentano simulato sbadigli o contengono contorsioni facciali che potrebbero essere confuse con paura, o altre azioni che non comportino sbadigli.
Pertanto gli autori hanno utilizzato 735 video dalla loro collezione interna, scegliendo le sessioni che probabilmente contenevano un caduta della mascella della durata di più di un secondo. Ogni video è stato etichettato manualmente da tre annotatori come mostrante attivo or sbadiglio inattivoSolo il 2.6 percento dei frame conteneva sbadigli attivi, il che sottolinea lo squilibrio di classe, e il set di dati è stato suddiviso in 670 video di formazione e 65 per i test.
Set di dati: distrazione
. distrazione Il set di dati è stato estratto anche dal repository di test pubblicitari degli autori, in cui i partecipanti avevano visualizzato annunci pubblicitari reali senza compiti assegnati. Un totale di 520 sessioni (193 su dispositivi mobili e 327 su desktop) sono state selezionate casualmente ed etichettate manualmente da tre annotatori come attento or disattento.
Comportamento disattento incluso sguardo fuori campo, parlando, sonnolenzae schermi incustoditiLe sessioni si svolgono in diverse regioni del mondo, con registrazioni desktop più comuni, grazie al posizionamento flessibile della webcam.
Modelli di attenzione
Il modello di attenzione proposto elabora le caratteristiche visive di basso livello, vale a dire espressioni facciali, posizione della testa e direzione dello sguardo, estratte tramite i suddetti AFFDEX 2.0 e SmartEye SDK.
Questi vengono poi convertiti in indicatori di alto livello, con ogni distrattore gestito da un classificatore binario separato, addestrato sul proprio set di dati, per un'ottimizzazione e una valutazione indipendenti.

Schema del sistema di monitoraggio proposto.
. guardare fisso Il modello determina se l'utente sta guardando o meno lo schermo utilizzando coordinate di sguardo normalizzate, con calibrazione separata per dispositivi desktop e mobili. Questo processo è facilitato da un sistema lineare Supporta la macchina vettoriale (SVM), addestrato su caratteristiche spaziali e temporali, che incorpora un finestra di memoria per attenuare i rapidi spostamenti dello sguardo.
Rilevare parlare senza audioIl sistema ha utilizzato regioni della bocca ritagliate e una CNN 3D addestrata su segmenti video sia conversazionali che non conversazionali. Le etichette sono state assegnate in base al tipo di sessione, con un livellamento temporale che riduce i falsi positivi che possono derivare da brevi movimenti della bocca.
Sbadigliare è stato rilevato utilizzando ritagli di immagini dell'intero viso, per catturare un movimento facciale più ampio, con una CNN 3D addestrata su fotogrammi etichettati manualmente (sebbene il compito fosse complicato dalla bassa frequenza dello sbadiglio nella visione naturale e dalla sua somiglianza con altre espressioni).
Abbandono dello schermo è stato identificato attraverso l'assenza di un volto o di una posa estrema della testa, con previsioni fatte da un albero decisionale.
Stato di attenzione finale è stato determinato utilizzando una regola fissa: se un modulo rilevava disattenzione, il visualizzatore veniva contrassegnato disattento – un approccio che dà priorità alla sensibilità e che è stato adattato separatamente ai contesti desktop e mobile.
Test
Come accennato in precedenza, i test seguono un metodo ablativo, in cui i componenti vengono rimossi e se ne annota l'effetto sul risultato.

Diverse categorie di disattenzione percepita sono state identificate nello studio.
Il modello dello sguardo ha identificato il comportamento fuori dallo schermo attraverso tre passaggi chiave: normalizzazione delle stime grezze dello sguardo, messa a punto dell'output e stima delle dimensioni dello schermo per i dispositivi desktop.
Per comprendere l'importanza di ciascun componente, gli autori li hanno rimossi individualmente e valutato le prestazioni su 226 video desktop e 225 video per dispositivi mobili, tratti da due set di dati. I risultati, misurati da G-media e F1 i punteggi sono mostrati di seguito:

Risultati che indicano le prestazioni del modello di sguardo completo, insieme alle versioni da cui sono stati rimossi i singoli passaggi di elaborazione.
In ogni caso, le prestazioni sono diminuite quando un passaggio è stato omesso. La normalizzazione si è rivelata particolarmente utile sui desktop, dove il posizionamento della fotocamera varia più che sui dispositivi mobili.
Lo studio ha anche valutato in che modo le caratteristiche visive predicessero l'orientamento della telecamera mobile: posizione del viso, posa della testa e sguardo hanno ottenuto rispettivamente 0.75, 0.74 e 0.60, mentre la loro combinazione ha raggiunto 0.91, evidenziando – affermano gli autori – il vantaggio dell'integrazione di più segnali.
. parlando modello, addestrato sulla distanza verticale del labbro, ha ottenuto un ROC-AUC di 0.97 sul set di test etichettato manualmente e di 0.96 sul set di dati più ampio etichettato automaticamente, indicando prestazioni costanti su entrambi.
. sbadigli il modello ha raggiunto un ROC-AUC del 96.6% utilizzando solo il rapporto di aspetto della bocca, che è migliorato al 97.5% quando combinato con unità d'azione previsioni da AFFDEX 2.0.
Il modello dello schermo non presidiato ha classificato i momenti come disattento quando sia AFFDEX 2.0 che SmartEye non sono riusciti a rilevare un volto per più di un secondo. Per valutare la validità di questo, gli autori hanno annotato manualmente tutti questi eventi senza volto nel vera distrazione set di dati, identificando la causa sottostante di ciascuna attivazione. I casi ambigui (come l'ostruzione della telecamera o la distorsione del video) sono stati esclusi dall'analisi.
Come mostrato nella tabella dei risultati qui sotto, solo il 27 percento delle attivazioni "senza volto" era dovuto al fatto che gli utenti abbandonavano fisicamente lo schermo.

Sono state addotte diverse motivazioni per cui, in certi casi, un volto non è stato trovato.
Il documento afferma:
"Nonostante gli schermi non presidiati rappresentassero solo il 27% dei casi in cui si attivava il segnale di assenza di volto, questo veniva attivato anche per altri motivi indicativi di disattenzione, come ad esempio quando i partecipanti guardavano fuori dallo schermo con un'angolazione estrema, facevano movimenti eccessivi o nascondevano significativamente il viso con un oggetto/una mano."
Nell'ultimo dei test quantitativi, gli autori hanno valutato in che modo l'aggiunta progressiva di diversi segnali di distrazione (sguardo fuori dallo schermo (tramite sguardo e posizione della testa), sonnolenza, conversazione e schermi non presidiati) influisse sulla prestazione complessiva del loro modello di attenzione.
I test sono stati effettuati su due set di dati: vera distrazione set di dati e un sottoinsieme di test del guardare fisso set di dati. Sono stati utilizzati i punteggi G-mean e F1 per misurare le prestazioni (sebbene la sonnolenza e il linguaggio siano stati esclusi dall'analisi del set di dati sullo sguardo, a causa della loro scarsa rilevanza in questo contesto).
Come mostrato di seguito, il rilevamento dell'attenzione è migliorato costantemente man mano che venivano aggiunti più tipi di distrazione, con sguardo fuori campo, il distrattore più comune, che fornisce la base di partenza più solida.

L'effetto dell'aggiunta di diversi segnali di distrazione all'architettura.
Tra questi risultati, il documento afferma:
"Dai risultati possiamo innanzitutto concludere che l'integrazione di tutti i segnali di distrazione contribuisce a migliorare il rilevamento dell'attenzione.
In secondo luogo, il miglioramento nel rilevamento dell'attenzione è coerente sia sui dispositivi desktop che su quelli mobili. In terzo luogo, le sessioni mobili nel dataset reale mostrano movimenti significativi della testa quando si guarda altrove, che sono facilmente rilevabili, il che si traduce in prestazioni migliori per i dispositivi mobili rispetto ai desktop. In quarto luogo, l'aggiunta del segnale di sonnolenza presenta un miglioramento relativamente lieve rispetto ad altri segnali, poiché di solito è raro che si verifichi.
"Infine, il segnale dello schermo incustodito è stato migliorato in modo relativamente maggiore sui dispositivi mobili rispetto ai desktop, poiché i dispositivi mobili possono essere facilmente lasciati incustoditi."
Gli autori hanno inoltre confrontato il loro modello con AFFDEX 1.0, un sistema precedentemente utilizzato nei test pubblicitari; persino il rilevamento dello sguardo basato sulla testa del modello attuale ha superato le prestazioni di AFFDEX 1.0 su entrambi i tipi di dispositivi:
"Questo miglioramento è il risultato dell'integrazione dei movimenti della testa sia in direzione di imbardata che di beccheggio, nonché della normalizzazione della posizione della testa per tenere conto di piccole variazioni. I movimenti pronunciati della testa nel set di dati mobile reale hanno permesso al nostro modello di testa di funzionare in modo simile ad AFFDEX 1.0."
Gli autori concludono l'articolo con un round di test qualitativi (forse un po' sbrigativi), mostrato di seguito.

Esempi di output del modello di attenzione su dispositivi desktop e mobili, con ogni riga che presenta esempi di veri e falsi positivi per diversi tipi di distrazione.
Gli autori affermano:
I risultati indicano che il nostro modello rileva efficacemente diversi fattori di distrazione in contesti non controllati. Tuttavia, occasionalmente può generare falsi positivi in ​​alcuni casi limite, come una forte inclinazione della testa mantenendo lo sguardo fisso sullo schermo, alcune occlusioni della bocca, occhi eccessivamente sfocati o immagini facciali fortemente scure.
Conclusione
Sebbene i risultati rappresentino un progresso misurato ma significativo rispetto ai lavori precedenti, il valore più profondo dello studio risiede nello sguardo che offre sulla spinta persistente ad accedere allo stato interiore dell'osservatore. Sebbene i dati siano stati raccolti con il consenso dell'utente, la metodologia indica modelli futuri che potrebbero estendersi oltre i contesti strutturati della ricerca di mercato.
Questa conclusione piuttosto paranoica è rafforzata dalla natura chiusa, limitata e gelosamente protetta di questo particolare filone di ricerca.
* La mia conversione delle citazioni in linea degli autori in collegamenti ipertestuali.
Prima pubblicazione mercoledì 9 aprile 2025