Suivez nous sur

À la recherche de « hiboux et lĂ©zards » dans l'audience d'un annonceur

Angle d'Anderson

À la recherche de « hiboux et lĂ©zards » dans l'audience d'un annonceur

mm

Publié

 on

Images tirĂ©es de l'article « Surveillance de l'attention des tĂ©lĂ©spectateurs pendant les publicitĂ©s en ligne Â» (https://arxiv.org/pdf/2504.06237)

Étant donnĂ© que le secteur de la publicitĂ© en ligne est estimĂ© ayant dĂ©pensĂ© 740.3 milliards de dollars US en 2023, il est facile de comprendre pourquoi les sociĂ©tĂ©s de publicitĂ© investissent des ressources considĂ©rables dans ce domaine particulier de la recherche en vision par ordinateur.

Bien qu'insulaire et protectrice, l'industrie occasionnellement publie des Ă©tudes qui suggĂšrent des travaux propriĂ©taires plus avancĂ©s dans la reconnaissance faciale et oculaire, notamment reconnaissance de l'Ăąge, au cƓur des statistiques d’analyse dĂ©mographique :

L'estimation de l'Ăąge dans un contexte publicitaire en pleine nature intĂ©resse les annonceurs susceptibles de cibler un public spĂ©cifique. Dans cet exemple expĂ©rimental d'estimation automatique de l'Ăąge facial, l'Ăąge de l'artiste Bob Dylan est suivi au fil des ans. Source : https://arxiv.org/pdf/1906.03625

L'estimation de l'ùge dans un contexte publicitaire en pleine nature intéresse les annonceurs susceptibles de cibler une tranche d'ùge particuliÚre. Dans cet exemple expérimental d'estimation automatique de l'ùge facial, l'ùge de l'artiste Bob Dylan est suivi au fil des ans. Source : https://arxiv.org/pdf/1906.03625

Ces Ă©tudes, qui apparaissent rarement dans des rĂ©fĂ©rentiels publics tels qu’Arxiv, utilisent des participants recrutĂ©s lĂ©gitimement comme base d’une analyse pilotĂ©e par l’IA qui vise Ă  dĂ©terminer dans quelle mesure et de quelle maniĂšre le spectateur s’engage avec une publicitĂ©.

L'histogramme des gradients orientĂ©s (HoG) de Dlib est souvent utilisĂ© dans les systĂšmes d'estimation faciale. Source : https://www.computer.org/csdl/journal/ta/2017/02/07475863/13rRUNvyarN

L'histogramme des gradients orientés (HoG) de Dlib est souvent utilisé dans les systÚmes d'estimation faciale. Source : https://www.computer.org/csdl/journal/ta/2017/02/07475863/13rRUNvyarN

Instinct animal

À cet Ă©gard, l’industrie publicitaire s’intĂ©resse naturellement Ă  la dĂ©termination des faux positifs (occasions oĂč un systĂšme analytique interprĂšte mal les actions d’un sujet) et Ă  l’établissement de critĂšres clairs pour dĂ©terminer quand la personne qui regarde ses publicitĂ©s n’est pas pleinement engagĂ©e avec le contenu.

En ce qui concerne la publicitĂ© sur Ă©cran, les Ă©tudes se concentrent gĂ©nĂ©ralement sur deux problĂ©matiques dans deux environnements : l'environnement « ordinateur Â» et l'environnement « mobile Â», chacun prĂ©sentant des caractĂ©ristiques particuliĂšres nĂ©cessitant des solutions de suivi sur mesure. Du point de vue de l'annonceur, les problĂ©matiques sont reprĂ©sentĂ©es par comportement du hibou et comportement du lĂ©zard – la tendance des tĂ©lĂ©spectateurs Ă  ne pas prĂȘter toute leur attention Ă  une publicitĂ© qui se trouve devant eux.

Exemples de comportements de hibou et de lĂ©zard dans un projet de recherche publicitaire. Source : https://arxiv.org/pdf/1508.04028

Exemples de comportement de « hibou » et de « lézard » dans un sujet d'un projet de recherche publicitaire. Source : https://arxiv.org/pdf/1508.04028

Si vous cherchez et Ă  partir de la publicitĂ© prĂ©vue avec toute votre tĂȘte, c'est un comportement de « hibou » ; si votre pose de tĂȘte est statique mais que vos yeux sont errant Vu de l'Ă©cran, il s'agit d'un comportement de « lĂ©zard Â». En termes d'analyse et de test de nouvelles publicitĂ©s dans des conditions contrĂŽlĂ©es, ces actions sont essentielles pour qu'un systĂšme puisse les capturer.

Un nouveau document issu de l'acquisition d'Affectiva par SmartEye aborde ces problĂšmes, en proposant une architecture qui exploite plusieurs cadres existants pour fournir un ensemble de fonctionnalitĂ©s combinĂ©es et concatĂ©nĂ©es couvrant toutes les conditions requises et les rĂ©actions possibles - et pour ĂȘtre en mesure de dire si un spectateur s'ennuie, est engagĂ© ou, d'une certaine maniĂšre, Ă©loignĂ© du contenu que l'annonceur souhaite qu'il regarde.

Exemples de vrais et faux positifs dĂ©tectĂ©s par le nouveau systĂšme d'attention pour divers signaux de distraction, prĂ©sentĂ©s sĂ©parĂ©ment pour les ordinateurs de bureau et les appareils mobiles. Source : https://arxiv.org/pdf/2504.06237

Exemples de vrais et faux positifs détectés par le nouveau systÚme d'attention pour divers signaux de distraction, présentés séparément pour les ordinateurs de bureau et les appareils mobiles. Source : https://arxiv.org/pdf/2504.06237

Les auteurs précisent* :

»LimitĂ© Une Ă©tude s'est penchĂ©e sur le suivi de l'attention lors des publicitĂ©s en ligne. Si ces Ă©tudes se concentraient sur l'estimation de la posture de la tĂȘte ou de la direction du regard pour identifier les cas de dĂ©tournement du regard, elles nĂ©gligeaient des paramĂštres critiques tels que le type d'appareil (ordinateur ou mobile), le positionnement de la camĂ©ra par rapport Ă  l'Ă©cran et la taille de l'Ă©cran. Ces facteurs influencent considĂ©rablement la dĂ©tection de l'attention.

« Dans cet article, nous proposons une architecture de détection de l'attention qui englobe la détection de divers distracteurs, notamment le comportement du hibou et du lézard consistant à regarder hors de l'écran, à parler, à somnoler (par le bùillement et la fermeture prolongée des yeux) et à laisser l'écran sans surveillance.

« Contrairement aux approches précédentes, notre méthode intÚgre des fonctionnalités spécifiques à l'appareil telles que le type d'appareil, le placement de la caméra, la taille de l'écran (pour les ordinateurs de bureau) et l'orientation de la caméra (pour les appareils mobiles) avec l'estimation brute du regard pour améliorer la précision de la détection de l'attention. »

Les nouveau travail est intitulé Suivi de l'attention des spectateurs pendant les publicités en ligne, et provient de quatre chercheurs d'Affectiva.

Méthode et données

En grande partie en raison du caractĂšre confidentiel et fermĂ© de ces systĂšmes, ce nouvel article ne compare pas directement l'approche des auteurs Ă  celle de leurs concurrents, mais prĂ©sente ses rĂ©sultats exclusivement sous forme d'Ă©tudes d'ablation ; il ne respecte pas non plus le format habituel de la littĂ©rature sur la vision par ordinateur. Par consĂ©quent, nous examinerons la recherche telle qu'elle est prĂ©sentĂ©e.

Les auteurs soulignent que seul un nombre limitĂ© d'Ă©tudes ont abordĂ© la dĂ©tection de l'attention spĂ©cifiquement dans le contexte des publicitĂ©s en ligne. Kit de dĂ©veloppement logiciel (SDK) AFFDEX, qui offre une reconnaissance multi-visage en temps rĂ©el, l'attention est dĂ©duite uniquement de la posture de la tĂȘte, les participants Ă©tant qualifiĂ©s d'inattentifs si l'angle de leur tĂȘte dĂ©passe un seuil dĂ©fini.

Un exemple du SDK AFFDEX, un systĂšme Affectiva qui utilise la posture de la tĂȘte comme indicateur d'attention. Source : https://www.youtube.com/watch?v=c2CWb5jHmbY

Un exemple du SDK AFFDEX, un systĂšme Affectiva qui s'appuie sur la pose de la tĂȘte comme indicateur d'attention. Source : https://www.youtube.com/watch?v=c2CWb5jHmbY

Dans le 2019 coopération Mesure automatique de l'attention visuelle au contenu vidéo à l'aide du Deep Learning, un ensemble de données d'environ 28,000 XNUMX participants a été annoté pour divers comportements d'inattention, notamment regarder au loin, fermer les yeux, ou s'engager dans activités non liées, et un modÚle CNN-LSTM formé pour détecter l'attention à partir de l'apparence du visage au fil du temps.

Extrait de l'article de 2019 : un exemple illustrant les Ă©tats d'attention prĂ©dits pour un spectateur regardant une vidĂ©o sur un Ă©cran. Source : https://www.jeffcohn.net/wp-content/uploads/2019/07/Attention-13.pdf.pdf

Extrait de l'article de 2019, un exemple illustrant les états d'attention prédits pour un spectateur regardant du contenu vidéo. Source : https://www.jeffcohn.net/wp-content/uploads/2019/07/Attention-13.pdf.pdf

Cependant, les auteurs observent que ces efforts antĂ©rieurs ne tenaient pas compte des facteurs spĂ©cifiques Ă  l'appareil, comme le fait que le participant utilise un ordinateur de bureau ou un appareil mobile ; ils n'ont pas non plus pris en compte la taille de l'Ă©cran ou le positionnement de la camĂ©ra. De plus, le systĂšme AFFDEX se concentre uniquement sur l'identification de la diversion du regard et omet les autres sources de distraction, tandis que les travaux de 2019 tentent de dĂ©tecter un ensemble plus large de comportements, mais leur utilisation d'un seul modĂšle superficiel CNN Selon le journal, ces mesures auraient pu ĂȘtre inadĂ©quates pour cette tĂąche.

Les auteurs observent que certaines des recherches les plus populaires dans ce domaine ne sont pas optimisĂ©es pour les tests publicitaires, qui ont des besoins diffĂ©rents de ceux de domaines tels que la conduite ou l'Ă©ducation - oĂč le placement et l'Ă©talonnage de la camĂ©ra sont gĂ©nĂ©ralement fixĂ©s Ă  l'avance, s'appuyant plutĂŽt sur des configurations non calibrĂ©es et fonctionnant dans la portĂ©e de regard limitĂ©e des ordinateurs de bureau et des appareils mobiles.

Ils ont donc conçu une architecture permettant de dĂ©tecter l’attention des spectateurs lors des publicitĂ©s en ligne, en s’appuyant sur deux boĂźtes Ă  outils commerciales : AFFDEX 2.0 et Kit de dĂ©veloppement logiciel (SDK) SmartEye.

Exemples d'analyse faciale issus d'AFFDEX 2.0. Source : https://arxiv.org/pdf/2202.12059

Exemples d'analyse faciale d'AFFDEX 2.0. Source : https://arxiv.org/pdf/2202.12059

Ces travaux antĂ©rieurs extraient des donnĂ©es de bas niveau CaractĂ©ristiques telles que les expressions faciales, la posture de la tĂȘte et la direction du regard. Ces caractĂ©ristiques sont ensuite traitĂ©es pour produire des indicateurs de niveau supĂ©rieur, notamment la position du regard sur l'Ă©cran, le bĂąillement et la parole.

Le systÚme identifie quatre types de distraction : regard hors écran; somnolence,; Et écrans sans surveillanceIl ajuste également l'analyse du regard selon que le spectateur se trouve sur un ordinateur de bureau ou un appareil mobile.

Ensembles de donnĂ©es : Gaze

Les auteurs ont utilisé quatre ensembles de données pour alimenter et évaluer le systÚme de détection de l'attention : trois se concentrant individuellement sur le comportement du regard, la parole et le bùillement ; et un quatriÚme tiré de sessions de tests publicitaires réelles contenant un mélange de types de distraction.

En raison des exigences spĂ©cifiques du travail, des ensembles de donnĂ©es personnalisĂ©s ont Ă©tĂ© créés pour chacune de ces catĂ©gories. Tous les ensembles de donnĂ©es sĂ©lectionnĂ©s proviennent d'un rĂ©fĂ©rentiel propriĂ©taire contenant des millions de sessions enregistrĂ©es de participants visionnant des publicitĂ©s Ă  domicile ou au travail, via une configuration web et avec un consentement Ă©clairĂ©. Compte tenu des limites de ces accords de consentement, les auteurs prĂ©cisent que les ensembles de donnĂ©es de ce nouveau travail ne peuvent ĂȘtre rendus publics.

Pour construire le regard Dans l'ensemble de donnĂ©es, les participants devaient suivre un point en mouvement sur diffĂ©rents points de l'Ă©cran, y compris ses bords, puis dĂ©tourner le regard de l'Ă©cran dans quatre directions (haut, bas, gauche et droite), la sĂ©quence Ă©tant rĂ©pĂ©tĂ©e trois fois. La relation entre capture et couverture a ainsi Ă©tĂ© Ă©tablie :

Captures d'écran montrant le stimulus vidéo du regard sur (a) un ordinateur et (b) un appareil mobile. Les premiÚre et troisiÚme images affichent des instructions pour suivre un point en mouvement, tandis que les deuxiÚme et quatriÚme invitent les participants à détourner le regard de l'écran.

Captures d'écran montrant le stimulus vidéo du regard sur (a) un ordinateur et (b) un appareil mobile. Les premiÚre et troisiÚme images affichent des instructions pour suivre un point en mouvement, tandis que les deuxiÚme et quatriÚme invitent les participants à détourner le regard de l'écran.

Les segments de points mobiles ont été étiquetés comme attentif, et les segments hors écran comme inattentif, produisant un ensemble de données étiquetées d'exemples positifs et négatifs.

Chaque vidĂ©o durait environ 160 secondes, avec des versions distinctes créées pour les plates-formes de bureau et mobiles, chacune avec des rĂ©solutions de 1920 × 1080 et 608 × 1080, respectivement.

Au total, 609 vidéos ont été collectées, dont 322 enregistrées sur ordinateur et 287 enregistrées sur mobile. Les étiquettes ont été appliquées automatiquement en fonction du contenu vidéo et de l'ensemble de données. scission en 158 échantillons d'entraßnement et 451 pour les tests.

Ensembles de donnĂ©es : Parler

Dans ce contexte, l’un des critĂšres dĂ©finissant « l’inattention » est lorsqu’une personne parle pour plus d'une seconde (ce qui pourrait ĂȘtre un commentaire momentanĂ©, ou mĂȘme une toux).

Étant donnĂ© que l'environnement contrĂŽlĂ© n'enregistre ni n'analyse l'audio, la parole est dĂ©duite par l'observation du mouvement interne des repĂšres faciaux estimĂ©s. Par consĂ©quent, pour dĂ©tecter sans audio, les auteurs ont créé un ensemble de donnĂ©es basĂ© entiĂšrement sur des entrĂ©es visuelles, tirĂ©es de leur rĂ©fĂ©rentiel interne, et divisĂ© en deux parties : la premiĂšre contenait environ 5,500 4,400 vidĂ©os, chacune Ă©tiquetĂ©e manuellement par trois annotateurs comme parlant ou non parlant (parmi celles-ci, 1,100 XNUMX ont Ă©tĂ© utilisĂ©es pour la formation et la validation, et XNUMX XNUMX pour les tests).

La deuxiÚme comprenait 16,000 10,500 sessions automatiquement étiquetées en fonction du type de session : 5,500 XNUMX présentaient des participants regardant silencieusement des publicités et XNUMX XNUMX montraient des participants exprimant leurs opinions sur des marques.

Ensembles de donnĂ©es : bĂąillements

Bien qu'il existe certains ensembles de donnĂ©es « bĂ©ants », notamment YawDD et Fatigue du conducteur, les auteurs affirment qu'aucun d'entre eux ne convient aux scĂ©narios de test publicitaire, car ils prĂ©sentent soit simulĂ© bĂąillements ou contiennent des contorsions faciales qui pourraient ĂȘtre confondues avec peur, ou d’autres actions autres que le bĂąillement.

Les auteurs ont donc utilisé 735 vidéos de leur collection interne, en choisissant des sessions susceptibles de contenir un bouche bée d'une durée supérieure à une seconde. Chaque vidéo a été étiquetée manuellement par trois annotateurs comme montrant infection or bùillements inactifs. Seulement 2.6 % des images contenaient des bùillements actifs, soulignant le déséquilibre des classes, et l'ensemble de données a été divisé en 670 vidéos de formation et 65 vidéos de test.

Ensembles de donnĂ©es : Distraction

Les distraction L'ensemble de donnĂ©es a Ă©galement Ă©tĂ© extrait du rĂ©fĂ©rentiel de tests publicitaires des auteurs, oĂč les participants avaient visionnĂ© des publicitĂ©s rĂ©elles sans aucune tĂąche assignĂ©e. Au total, 520 sessions (193 sur mobile et 327 sur ordinateur) ont Ă©tĂ© sĂ©lectionnĂ©es alĂ©atoirement et Ă©tiquetĂ©es manuellement par trois annotateurs comme suit : attentif or inattentif.

Comportement inattentif inclus regard hors écran, , somnolence écrans sans surveillanceLes sessions s'étendent sur diverses régions du monde, les enregistrements sur ordinateur étant plus courants, en raison du placement flexible de la webcam.

ModÚles attentionnés

Le modĂšle d'attention proposĂ© traite les caractĂ©ristiques visuelles de bas niveau, Ă  savoir les expressions faciales, la pose de la tĂȘte et la direction du regard, extraites via l'AFFDEX 2.0 et le SDK SmartEye susmentionnĂ©s.

Ceux-ci sont ensuite convertis en indicateurs de haut niveau, chaque distracteur étant traité par un classificateur binaire distinct formé sur son propre ensemble de données pour une optimisation et une évaluation indépendantes.

Schéma du systÚme de surveillance proposé.

Schéma du systÚme de surveillance proposé.

Les regard Le modĂšle dĂ©termine si le spectateur regarde l'Ă©cran ou non, Ă  l'aide de coordonnĂ©es de regard normalisĂ©es, avec un calibrage distinct pour les ordinateurs de bureau et les appareils mobiles. Ce processus est facilitĂ© par une approche linĂ©aire. Soutenir la machine vectorielle (SVM), formĂ© sur des caractĂ©ristiques spatiales et temporelles, qui intĂšgre un fenĂȘtre de mĂ©moire pour lisser les changements rapides de regard.

Détecter parler sans audioLe systÚme utilisait des zones buccales recadrées et un CNN 3D entraßné sur des segments vidéo conversationnels et non conversationnels. Les étiquettes étaient attribuées en fonction du type de session, le lissage temporel réduisant les faux positifs pouvant résulter de brefs mouvements de la bouche.

Béant a été détecté à l'aide de recadrages d'images du visage entier, pour capturer un mouvement facial plus large, avec un 3D-CNN formé sur des images étiquetées manuellement (bien que la tùche ait été compliquée par la faible fréquence du bùillement dans la visualisation naturelle et par sa similitude avec d'autres expressions).

Abandon d'Ă©cran a Ă©tĂ© identifiĂ© par l'absence de visage ou de posture extrĂȘme de la tĂȘte, avec des prĂ©dictions faites par un arbre de dĂ©cision.

Statut d'attention final a Ă©tĂ© dĂ©terminĂ© Ă  l'aide d'une rĂšgle fixe : si un module dĂ©tectait une inattention, le spectateur Ă©tait marquĂ© inattentif – une approche privilĂ©giant la sensibilitĂ© et adaptĂ©e sĂ©parĂ©ment aux contextes de bureau et mobiles.

Tests

Comme mentionnĂ© prĂ©cĂ©demment, les tests suivent une mĂ©thode ablative, oĂč les composants sont retirĂ©s et l’effet sur le rĂ©sultat notĂ©.

DiffĂ©rentes catĂ©gories d’inattention perçue identifiĂ©es dans l’étude.

DiffĂ©rentes catĂ©gories d’inattention perçue identifiĂ©es dans l’étude.

Le modÚle de regard a identifié le comportement hors écran à travers trois étapes clés : normalisation des estimations brutes du regard, réglage fin de la sortie et estimation de la taille de l'écran pour les appareils de bureau.

Pour comprendre l'importance de chaque composant, les auteurs les ont analysés individuellement et ont évalué les performances de 226 vidéos pour ordinateur et 225 vidéos pour mobile, tirées de deux ensembles de données. Résultats, mesurés par G-moyenne et F1 les scores sont présentés ci-dessous :

Résultats indiquant les performances du modÚle de regard complet, ainsi que les versions avec des étapes de traitement individuelles supprimées.

Résultats indiquant les performances du modÚle de regard complet, ainsi que les versions avec des étapes de traitement individuelles supprimées.

Dans tous les cas, les performances ont diminuĂ© lorsqu'une Ă©tape Ă©tait omise. La normalisation s'est avĂ©rĂ©e particuliĂšrement utile sur les ordinateurs de bureau, oĂč le positionnement de la camĂ©ra varie davantage que sur les appareils mobiles.

L'Ă©tude a Ă©galement Ă©valuĂ© la maniĂšre dont les caractĂ©ristiques visuelles prĂ©disaient l'orientation de la camĂ©ra mobile : l'emplacement du visage, la pose de la tĂȘte et le regard ont obtenu des scores de 0.75, 0.74 et 0.60, tandis que leur combinaison atteignait 0.91, soulignant - selon les auteurs - l'avantage d'intĂ©grer plusieurs indices.

Les modÚle, formé sur la distance verticale des lÚvres, a obtenu un ROC-AUC de 0.97 sur l'ensemble de tests étiqueté manuellement et de 0.96 sur l'ensemble de données étiqueté automatiquement plus grand, indiquant des performances cohérentes dans les deux cas.

Les bùillement Le modÚle a atteint un ROC-AUC de 96.6 pour cent en utilisant uniquement le rapport d'aspect de la bouche, qui s'est amélioré à 97.5 pour cent lorsqu'il est combiné avec unité d'action prévisions de l'AFFDEX 2.0.

Le modÚle d'écran sans surveillance a classé les moments comme inattentif Lorsque ni AFFDEX 2.0 ni SmartEye n'ont détecté de visage pendant plus d'une seconde. Pour évaluer la validité de cette hypothÚse, les auteurs ont annoté manuellement tous ces événements sans visage dans le vraie distraction Ensemble de données identifiant la cause sous-jacente de chaque activation. Les cas ambigus (tels qu'une obstruction de la caméra ou une distorsion vidéo) ont été exclus de l'analyse.

Comme le montre le tableau des résultats ci-dessous, seulement 27 % des activations « sans visage » étaient dues au fait que les utilisateurs quittaient physiquement l'écran.

Diverses raisons ont été avancées pour expliquer pourquoi un visage n'a pas été retrouvé dans certains cas.

Diverses raisons ont été avancées pour expliquer pourquoi un visage n'a pas été retrouvé, dans certains cas.

Le papier déclare:

« Bien que les Ă©crans sans surveillance ne constituent que 27 % des cas dĂ©clenchant le signal d'absence de visage, celui-ci a Ă©tĂ© activĂ© pour d'autres raisons indiquant une inattention, comme le fait que les participants regardaient hors de l'Ă©cran avec un angle extrĂȘme, faisaient des mouvements excessifs ou cachaient leur visage de maniĂšre significative avec un objet/une main. »

Dans le dernier des tests quantitatifs, les auteurs ont Ă©valuĂ© comment l’ajout progressif de diffĂ©rents signaux de distraction – le regard hors Ă©cran (via le regard et la posture de la tĂȘte), la somnolence, la parole et les Ă©crans sans surveillance – affectait la performance globale de leur modĂšle d’attention.

Les tests ont été effectués sur deux ensembles de données : vraie distraction ensemble de données et un sous-ensemble de test du regard ensemble de données. Les scores G-mean et F1 ont été utilisés pour mesurer les performances (bien que la somnolence et la parole aient été exclues de l'analyse de l'ensemble de données du regard, en raison de leur pertinence limitée dans ce contexte).

Comme indiquĂ© ci-dessous, la dĂ©tection de l’attention s’est amĂ©liorĂ©e de maniĂšre constante Ă  mesure que davantage de types de distraction ont Ă©tĂ© ajoutĂ©s, avec regard hors Ă©cran, le distracteur le plus courant, fournissant la base de rĂ©fĂ©rence la plus solide.

L'effet de l'ajout de divers signaux de distraction Ă  l'architecture.

L'effet de l'ajout de divers signaux de distraction Ă  l'architecture.

Parmi ces résultats, l'article indique :

« D’aprĂšs les rĂ©sultats, nous pouvons d’abord conclure que l’intĂ©gration de tous les signaux de distraction contribue Ă  une meilleure dĂ©tection de l’attention.

DeuxiĂšmement, l'amĂ©lioration de la dĂ©tection de l'attention est constante sur les ordinateurs de bureau et les appareils mobiles. TroisiĂšmement, les sessions mobiles de l'ensemble de donnĂ©es rĂ©elles montrent des mouvements de tĂȘte importants lors du dĂ©tournement du regard, facilement dĂ©tectables, ce qui amĂ©liore les performances des appareils mobiles par rapport aux ordinateurs de bureau. QuatriĂšmement, l'ajout du signal de somnolence prĂ©sente une amĂ©lioration relativement lĂ©gĂšre par rapport aux autres signaux, car il est gĂ©nĂ©ralement rare.

« Enfin, le signal d'Ă©cran sans surveillance prĂ©sente une amĂ©lioration relativement plus importante sur les appareils mobiles par rapport aux ordinateurs de bureau, car les appareils mobiles peuvent facilement ĂȘtre laissĂ©s sans surveillance. »

Les auteurs ont Ă©galement comparĂ© leur modĂšle Ă  AFFDEX 1.0, un systĂšme antĂ©rieur utilisĂ© dans les tests publicitaires – et mĂȘme la dĂ©tection du regard basĂ©e sur la tĂȘte du modĂšle actuel a surpassĂ© AFFDEX 1.0 sur les deux types d'appareils :

« Cette amĂ©lioration rĂ©sulte de l'intĂ©gration des mouvements de la tĂȘte dans les directions de lacet et de tangage, ainsi que de la normalisation de la posture de la tĂȘte pour tenir compte des changements mineurs. Les mouvements prononcĂ©s de la tĂȘte dans les donnĂ©es mobiles rĂ©elles ont permis Ă  notre modĂšle de tĂȘte d'atteindre des performances similaires Ă  celles d'AFFDEX 1.0. Â»

Les auteurs concluent l’article par une sĂ©rie de tests qualitatifs (peut-ĂȘtre assez superficiels), prĂ©sentĂ©s ci-dessous.

Exemples de résultats du modÚle d'attention sur les ordinateurs de bureau et les appareils mobiles, chaque ligne présentant des exemples de vrais et de faux positifs pour différents types de distraction.

Exemples de résultats du modÚle d'attention sur les ordinateurs de bureau et les appareils mobiles, chaque ligne présentant des exemples de vrais et de faux positifs pour différents types de distraction.

Les auteurs déclarent:

« Les rĂ©sultats indiquent que notre modĂšle dĂ©tecte efficacement divers distracteurs dans des environnements non contrĂŽlĂ©s. Cependant, il peut parfois produire des faux positifs dans certains cas extrĂȘmes, comme une forte inclinaison de la tĂȘte tout en maintenant le regard fixĂ© sur l'Ă©cran, certaines occlusions de la bouche, des yeux excessivement flous ou des images faciales fortement assombries. Â»

Conclusion

Si les résultats représentent une avancée mesurée mais significative par rapport aux travaux antérieurs, la valeur ajoutée de l'étude réside dans l'aperçu qu'elle offre du désir persistant d'accéder à l'état intérieur du spectateur. Bien que les données aient été recueillies avec le consentement du spectateur, la méthodologie ouvre la voie à des cadres futurs qui pourraient dépasser le cadre structuré des études de marché.

Cette conclusion plutĂŽt paranoĂŻaque n’est renforcĂ©e que par la nature cloĂźtrĂ©e, contrainte et jalousement protĂ©gĂ©e de ce domaine particulier de recherche.

 

* Ma conversion des citations en ligne des auteurs en hyperliens.

PremiĂšre publication le mercredi 9 avril 2025