Anderson 视角
在广告受众中寻找“猫头鹰和蜥蜴”

由于在线广告行业预计在2023年花费了740.3亿美元,因此可以理解为什么广告公司会在这方面的计算机视觉研究中投入大量资源。
尽管行业内部相对封闭,但偶尔会发布一些研究,暗示了更先进的专有工作,包括面部和眼球追踪、年龄识别等,这些对于人口统计学分析至关重要。

在广告中估计年龄是针对特定人口统计学的广告商的兴趣所在。这个实验性自动面部年龄估计的例子跟踪了鲍勃·迪伦多年来的年龄。 来源:https://arxiv.org/pdf/1906.03625
这些研究很少出现在公共存储库中,如Arxiv,使用合法招募的参与者作为AI驱动分析的基础,以确定观众与广告的互动程度和方式。

Dlib的方向梯度直方图(HoG)通常用于面部估计系统。 来源:https://www.computer.org/csdl/journal/ta/2017/02/07475863/13rRUNvyarN
动物本能
在这个方面,广告行业自然对确定假阳性(分析系统误解释主体行为的情况)和确定一个人观看他们的广告时没有完全参与内容的明确标准感兴趣。
就基于屏幕的广告而言,研究往往关注两个问题,跨越两个环境:环境是“桌面”或“移动”,每个都有特定的特征,需要定制的跟踪解决方案;而问题——从广告商的角度来看——由“猫头鹰行为”和“蜥蜴行为”代表——观众没有完全注意到他们面前的广告。

广告研究项目中“猫头鹰”和“蜥蜴”行为的例子。 来源:https://arxiv.org/pdf/1508.04028
如果你用整个头转移视线离开广告,这就是“猫头鹰”行为;如果你的头部姿势是静态的,但你的眼睛在屏幕上徘徊,这就是“蜥蜴”行为。在分析和测试新的广告的受控条件下,这些是系统必须能够捕捉的基本动作。
SmartEye的Affectiva收购发布了一篇新论文,提出了一种利用现有框架的架构,提供了一个结合和连接的特征集,用于所有必要的条件和可能的反应,并能够判断观众是否感到无聊、参与或以某种方式与广告内容脱节。

不同干扰信号的真阳性和假阳性检测示例,分别显示在桌面和移动设备上。 来源:https://arxiv.org/pdf/2504.06237
作者指出:
‘尽管有一些研究探讨了在线广告中的注意力监测,但这些研究主要集中在估计头部姿势或凝视方向,以确定注意力分散的实例。然而,这些研究忽略了设备类型(桌面或移动)、相机放置相对于屏幕以及屏幕尺寸等关键参数,这些参数对注意力检测有显著影响。 ‘
‘在这篇论文中,我们提出了一种注意力检测架构,能够检测各种干扰因素,包括“猫头鹰”和“蜥蜴”行为、打哈、说话以及屏幕未被关注。 ‘
‘与之前的方法不同,我们的方法将设备特定的特征(如设备类型、相机放置、屏幕尺寸(对于桌面)和相机方向(对于移动设备))与原始凝视估计相结合,以提高注意力检测的准确性。 ‘
这篇新论文题为《在线广告中监测观众注意力》,由Affectiva的四位研究人员撰写。
方法和数据
由于此类系统的保密性和封闭性,这篇新论文没有直接将其方法与竞争对手的方法进行比较,而是仅以消融研究的形式呈现其发现。
作者强调,仅有有限的研究专门探讨了在线广告的注意力检测。在AFFDEX SDK中,提供了实时多面识别,注意力仅从头部姿势推断,参与者被标记为不注意,如果他们的头部角度超过了某个阈值。

来自AFFDEX SDK的示例,Affectiva系统依赖于头部姿势作为注意力的指标。 来源:https://www.youtube.com/watch?v=c2CWb5jHmbY
在2019年的合作研究《使用深度学习自动测量视频内容的视觉注意力》中,约有28,000名参与者被注释为各种不注意行为,包括凝视离开、闭眼或从事无关活动,并训练了一个CNN-LSTM模型来检测注意力从面部外观随时间的变化中。

来自2019年论文的示例,展示了观看屏幕视频内容的观众的预测注意力状态。 来源:https://www.jeffcohn.net/wp-content/uploads/2019/07/Attention-13.pdf.pdf
然而,作者观察到,这些早期的工作没有考虑到设备特定的因素,如使用桌面还是移动设备;也没有考虑到屏幕尺寸或相机放置。此外,AFFDEX系统仅关注凝视离开,而2019年的工作尝试检测更广泛的行为,但其使用单个浅层CNN可能对于这一任务来说是不够的。
作者观察到,一些最流行的研究在这个领域并没有针对广告测试进行优化,这些研究通常具有不同的需求,与驾驶或教育等领域不同,相机放置和校准通常在事先固定,并依赖于未校准的设置,在桌面和移动设备的有限凝视范围内运行。
因此,他们设计了一种用于在线广告的注意力检测架构,利用两个商业工具包:AFFDEX 2.0和SmartEye SDK。

来自AFFDEX 2.0的面部分析示例。 来源:https://arxiv.org/pdf/2202.12059
这些先前的工作提取了低级别的视觉特征,如面部表情、头部姿势和凝视方向。这些特征然后被处理为更高级别的指标,包括凝视位置、打哈和说话。
系统识别四种干扰类型:屏幕外凝视、瞌睡、说话和未关注的屏幕。它还根据观众使用桌面还是移动设备来调整凝视分析。
数据集:凝视
作者使用四个数据集来驱动和评估注意力检测系统:三个分别关注凝视行为、说话和打哈;以及一个来自真实广告测试会话的数据集,包含各种干扰类型的混合。
由于工作的具体要求,创建了自定义数据集用于每个类别。所有数据集都是从一个包含数百万录制会话的私有存储库中获取的,参与者在家中或工作场所观看广告,使用基于Web的设置,并获得知情同意。然而,由于同意协议的限制,作者表示,新工作的数据集无法公开提供。
为了构建凝视数据集,参与者被要求跟随屏幕上的移动点,包括屏幕边缘,然后将视线移开屏幕,四个方向(上、下、左、右)各重复三次。这样就建立了捕获和覆盖之间的关系。

桌面和移动设备上的凝视视频刺激的屏幕截图。第一和第三帧显示跟随移动点的指令,而第二和第四帧提示参与者将视线移开屏幕。
移动点段被标记为“注意”,而屏幕外段被标记为“不注意”,从而产生一个带有正面和负面示例的标记数据集。
每个视频大约持续160秒,分别为桌面和移动平台创建了单独的版本,分别具有1920×1080和608×1080的分辨率。
共收集了609个视频,包括322个桌面和287个移动录音。标签基于视频内容自动应用,并将数据集分成158个训练样本和451个测试样本。
数据集:说话
在这个背景下,定义“不注意”的一个标准是当一个人说话超过一秒钟(这可能是一个短暂的评论,甚至是一次咳嗽)。
由于受控环境不记录或分析音频,通过观察估计的面部标志的内部运动来推断说话。因此,作者创建了一个基于视觉输入的数据集,用于检测说话,并将其分成两个部分:第一部分包含大约5,500个视频,每个视频由三个注释器手动标记为说话或不说话(其中4,400个用于训练和验证,1,100个用于测试)。
第二部分包含16,000个会话,根据会话类型自动标记:10,500个会话中,参与者默默地观看广告,5,500个会话中,参与者表达了对品牌的意见。
数据集:打哈
虽然有一些打哈数据集存在,包括YawDD和驾驶员疲劳检测,但作者声称这些数据集不适合广告测试场景,因为它们要么包含模拟的打哈,要么包含可能与打哈混淆的面部扭曲。
因此,作者使用了735个来自内部集合的视频,选择了可能包含超过一秒钟的下巴掉落的会话。每个视频由三个注释器手动标记为“活跃”或“非活跃”打哈。仅2.6%的帧包含活跃的打哈,突出了类别不平衡,并将数据集分成670个训练视频和65个测试视频。
数据集:干扰
干扰数据集也来自作者的广告测试存储库,参与者观看了实际广告,没有指定任务。共随机选择了520个会话(193个移动,327个桌面环境),并由三个注释器手动标记为“注意”或“不注意”。
不注意的行为包括屏幕外凝视、说话、瞌睡和未关注的屏幕。会话跨越了世界各地的不同地区,桌面录音更为常见,这是由于相机放置的灵活性所致。
注意力模型
提出的注意力模型处理低级别的视觉特征,包括面部表情、头部姿势和凝视方向,通过AFFDEX 2.0和SmartEye SDK提取。
这些特征然后被转换为更高级别的指标,每个干扰因素由一个单独的二元分类器处理,训练和优化独立于其自身数据集。

提出的监测系统的架构。
凝视模型使用归一化的凝视坐标确定观众是否在看着或离开屏幕,具有针对桌面和移动设备的单独校准。一个线性支持向量机(SVM)在空间和时间特征上训练,并包含一个记忆窗口来平滑快速的凝视转换,辅助这一过程。
为了检测没有音频的说话,系统使用了裁剪的嘴部区域和在对话和非对话视频段上训练的3D-CNN。标签基于会话类型,时间平滑减少了由于短暂的嘴部运动可能造成的假阳性。
打哈被检测使用了全脸图像裁剪,以捕捉更广泛的面部运动,并使用手动标记的帧训练了一个3D-CNN(尽管打哈的低频率和与其他表达的相似性使得任务变得复杂)。
未关注的屏幕通过缺乏面部或极端的头部姿势来识别,预测由一个决策树做出。
最终的注意力状态通过一个固定的规则确定:如果任何模块检测到不注意,观众就会被标记为“不注意”——这种方法优先考虑敏感性,并针对桌面和移动环境分别调整。
测试
正如前面提到的,测试遵循一种消融方法,即删除组件并注意结果的变化。

研究中确定的不同类别的感知不注意力。
凝视模型通过三个关键步骤识别屏幕外行为:归一化原始凝视估计,细化输出,并估计桌面设备的屏幕尺寸。
为了理解每个组件的重要性,作者分别删除了它们,并在226个桌面和225个移动视频上评估了性能,这些视频来自两个数据集。结果通过G均值和F1评分来衡量,如下所示:

完整凝视模型的性能,以及删除个别处理步骤的版本。
在每种情况下,性能都会在删除步骤后下降。归一化在桌面上尤其有价值,因为相机放置会有所不同。
研究还评估了视觉特征如何预测移动相机的方向:面部位置、头部姿势和眼球凝视分别得分0.75、0.74和0.60,而它们的组合达到0.91,突出了集成多个线索的优势。
说话模型在垂直唇部距离上训练,获得了0.97的ROC-AUC评分,在手动标记的测试集上,和0.96在更大的自动标记数据集上,表明在两个数据集上都保持了一致的性能。
打哈模型仅使用嘴部宽高比达到96.6%的ROC-AUC评分,这个评分提高到97.5%,当与AFFDEX 2.0的行为单位预测相结合时,尽管打哈在自然观看中的低频率和与其他表达的相似性使得任务具有挑战性。
未关注屏幕的模型将没有面部或极端头部姿势的时刻分类为“不注意”,以评估其有效性,作者手动注释了所有没有面部的事件,在“真实干扰”数据集中,并找到了导致每次激活的潜在原因。模糊的案例(例如相机阻塞或视频失真)从分析中排除。
如下表所示,只有27%的“无面部”激活是由于用户实际离开屏幕所致。

某些实例中没有找到面部的各种原因。
论文指出:
‘尽管未关注的屏幕仅占触发无面部信号的实例的27%,但它被激活以指示其他表明不注意的原因,例如参与者以极端角度凝视离开屏幕,进行过度运动,或以物体/手显著遮挡面部。 ‘
在最后一轮定量测试中,作者评估了逐渐添加不同的干扰信号(屏幕外凝视、瞌睡、说话和未关注的屏幕)如何影响他们的注意力模型的整体性能。
测试是在两个数据集上进行的:真实干扰数据集和凝视数据集的测试子集。使用G均值和F1评分来衡量性能(尽管瞌睡和说话在凝视数据集分析中被排除,因为它们在这种情况下相关性有限)。
如下所示,注意力检测在添加更多干扰类型时始终提高,屏幕外凝视提供了最强的基线,因为它是最常见的干扰因素。

添加不同干扰信号到架构中的影响。
关于这些结果,论文指出:
‘从结果来看,我们可以首先得出结论,集成所有干扰信号都有助于增强注意力检测。
‘其次,注意力检测的改进在桌面和移动设备上都是一致的。第三,真实数据集中的移动会话在凝视离开时显示出显著的头部运动,这些运动很容易被检测,从而导致移动设备的性能优于桌面。第四,添加瞌睡信号的改进相对于其他信号来说相对较小,因为它通常很少发生。 ‘
‘最后,未关注的屏幕信号在移动设备上比在桌面上有更大的改进,因为移动设备很容易被遗弃。 ‘
作者还将他们的模型与AFFDEX 1.0进行了比较,这是一个以前用于广告测试的系统,即使他们的当前模型仅基于头部的凝视检测,也优于AFFDEX 1.0,跨越两种设备类型:
‘这种改进是由于在两个方向(yaw和pitch)中都纳入头部运动,以及对头部姿势进行归一化以考虑小的变化。移动设备中明显的头部运动使我们的头部模型的性能与AFFDEX 1.0相似。 ‘
作者以一个简短的定性测试环节结束了论文,如下所示。

不同干扰类型的真阳性和假阳性示例,跨桌面和移动设备。
作者指出:
‘结果表明,我们的模型在非受控环境中有效地检测到各种干扰因素。然而,它可能会在某些边缘情况下产生假阳性,例如严重的头部倾斜同时保持屏幕上的凝视,一些嘴部遮挡,过度模糊的眼睛,或极度黑暗的面部图像。 ‘
结论
虽然结果代表了对先前工作的有意义的进步,但该研究的更深层次的价值在于它对观众内部状态的持续驱动力的洞察。尽管数据是经过同意收集的,但该方法论指向了可能超出结构化、市场研究环境的未来框架。
这种相当偏执的结论仅仅是因为这条特定的研究线索的封闭、受限和嫉妒地保护的性质而得到加强。
* 作者的内联引用转换为超链接。
首次发表于2025年4月9日星期三。












