Свяжитесь с нами:

Поиск «Сов и ящериц» в аудитории рекламодателя

Угол Андерсона

Поиск «Сов и ящериц» в аудитории рекламодателя

mm
Изображения из статьи «Мониторинг внимания зрителей во время онлайн-рекламы» (https://arxiv.org/pdf/2504.06237)

Поскольку сектор интернет-рекламы оценкам потратив 740.3 млрд долларов США в 2023 году, легко понять, почему рекламные компании вкладывают значительные ресурсы в это конкретное направление исследований компьютерного зрения.

Хотя эта отрасль является изолированной и защищенной, время от времени издает исследования, которые намекают на более продвинутую запатентованную разработку в области распознавания лиц и взгляда, включая распознавание возраста, центральное место в статистике демографической аналитики:

Оценка возраста в контексте рекламы in the wild представляет интерес для рекламодателей, которые могут ориентироваться на определенную демографическую группу. В этом экспериментальном примере автоматической оценки возраста лица возраст исполнителя Боба Дилана отслеживается на протяжении многих лет. Источник: https://arxiv.org/pdf/1906.03625

Оценка возраста в контексте рекламы in the wild представляет интерес для рекламодателей, которые могут ориентироваться на определенную возрастную группу. В этом экспериментальном примере автоматической оценки возраста лица возраст исполнителя Боба Дилана отслеживается на протяжении многих лет. Источник: https://arxiv.org/pdf/1906.03625

Эти исследования, которые редко публикуются в публичных репозиториях, таких как Arxiv, используют законно привлеченных участников в качестве основы для анализа на основе искусственного интеллекта, цель которого — определить, в какой степени и каким образом зритель взаимодействует с рекламой.

Гистограмма ориентированных градиентов (HoG) Длиба часто используется в системах оценки лица. Источник: https://www.computer.org/csdl/journal/ta/2017/02/07475863/13rRUNvyarN

Гистограмма ориентированных градиентов (HoG) Длиба часто используется в системах оценки лица. Источник: https://www.computer.org/csdl/journal/ta/2017/02/07475863/13rRUNvyarN

Животный инстинкт

В этой связи, естественно, рекламная индустрия заинтересована в определении ложных срабатываний (случаев, когда аналитическая система неверно интерпретирует действия субъекта), а также в установлении четких критериев того, когда человек, просматривающий рекламу, не в полной мере взаимодействует с ее содержанием.

Что касается экранной рекламы, исследования, как правило, фокусируются на двух проблемах, возникающих в двух средах. Среды бывают «настольными» и «мобильными», каждая из которых обладает своими особенностями, требующими специальных решений для отслеживания. С точки зрения рекламодателя, эти проблемы представлены: поведение совы и поведение ящерицы – тенденция зрителей не уделять должного внимания рекламе, находящейся перед ними.

Примеры поведения Совы и Ящерицы в рамках исследовательского проекта по рекламе. Источник: https://arxiv.org/pdf/1508.04028

Примеры поведения «Совы» и «Ящерицы» в рамках исследовательского проекта по рекламе. Источник: https://arxiv.org/pdf/1508.04028

Если вы ищете прочь из предполагаемой рекламы всей головой, это поведение «совы»; если поза вашей головы статична, но ваши глаза блуждая прочь С точки зрения экрана это поведение «ящерицы». С точки зрения аналитики и тестирования новых рекламных объявлений в контролируемых условиях, это важные действия, которые система должна фиксировать.

В новой статье, подготовленной в результате приобретения SmartEye компании Affectiva, рассматриваются эти проблемы. Предлагается архитектура, которая использует несколько существующих фреймворков для предоставления комбинированного и связанного набора функций, охватывающего все необходимые условия и возможные реакции, а также для определения того, скучает ли зритель, заинтересован ли он или каким-либо образом отстранен от контента, который рекламодатель хочет, чтобы он смотрел.

Примеры истинных и ложных срабатываний, обнаруженных новой системой внимания для различных отвлекающих сигналов, показаны отдельно для настольных и мобильных устройств. Источник: https://arxiv.org/pdf/2504.06237

Примеры истинных и ложных срабатываний, обнаруженных новой системой внимания для различных отвлекающих сигналов, показаны отдельно для настольных и мобильных устройств. Источник: https://arxiv.org/pdf/2504.06237

Авторы заявляют*:

"Ограниченный исследованиями углубился в мониторинг внимания во время онлайн-рекламы. Хотя эти исследования были сосредоточены на оценке позы головы или направления взгляда для выявления случаев отвлечения взгляда, они не учитывают критические параметры, такие как тип устройства (настольный или мобильный), расположение камеры относительно экрана и размер экрана. Эти факторы существенно влияют на обнаружение внимания.

«В этой статье мы предлагаем архитектуру для обнаружения внимания, которая охватывает обнаружение различных отвлекающих факторов, включая поведение сов и ящериц, заключающееся в отводе взгляда за пределы экрана, разговоре, сонливости (через зевание и длительное закрывание глаз) и оставлении экрана без присмотра».

«В отличие от предыдущих подходов, наш метод объединяет специфические характеристики устройства, такие как тип устройства, расположение камеры, размер экрана (для настольных компьютеров) и ориентация камеры (для мобильных устройств), с первичной оценкой взгляда для повышения точности определения внимания».

Радиус корня новая работа называется Мониторинг внимания зрителей во время онлайн-рекламыи исходит от четырех исследователей из Affectiva.

Метод и данные

Во многом из-за секретности и закрытости исходного кода подобных систем, в новой статье не сравнивается подход авторов напрямую с конкурентами, а представлены исключительно в виде исследований абляции; кроме того, статья в целом не придерживается общепринятого формата литературы по компьютерному зрению. Поэтому мы рассмотрим исследование в том виде, в котором оно представлено.

Авторы подчеркивают, что лишь ограниченное число исследований рассматривало обнаружение внимания конкретно в контексте онлайн-рекламы. AFFDEX SDK, который обеспечивает распознавание нескольких лиц в режиме реального времени, внимание определяется исключительно по позе головы, при этом участники считаются невнимательными, если угол наклона их головы превышает определенный порог.

Пример из AFFDEX SDK, системы Affectiva, которая использует положение головы как индикатор внимания. Источник: https://www.youtube.com/watch?v=c2CWb5jHmbY

Пример из AFFDEX SDK, системы Affectiva, которая использует положение головы как индикатор внимания. Источник: https://www.youtube.com/watch?v=c2CWb5jHmbY

В 2019 сотрудничество Автоматическое измерение визуального внимания к видеоконтенту с использованием глубокого обучениянабор данных, включающий около 28,000 XNUMX участников, был проанализирован на предмет различных видов невнимательного поведения, включая глядя вдаль, закрывая глазаили участие в несвязанные действияи модель CNN-LSTM, обученная определять внимание по внешнему виду лица с течением времени.

Из статьи 2019 года, пример, иллюстрирующий прогнозируемые состояния внимания для зрителя, просматривающего видеоконтент на экране. Источник: https://www.jeffcohn.net/wp-content/uploads/2019/07/Attention-13.pdf.pdf

Пример из статьи 2019 года, иллюстрирующий прогнозируемые состояния внимания зрителя, просматривающего видеоконтент. Источник: https://www.jeffcohn.net/wp-content/uploads/2019/07/Attention-13.pdf.pdf

Однако авторы отмечают, что эти более ранние попытки не учитывали факторы, связанные с устройством, например, использовал ли участник настольное или мобильное устройство; они также не учитывали размер экрана или размещение камеры. Кроме того, система AFFDEX фокусируется только на выявлении отклонения взгляда и не учитывает другие источники отвлечения, в то время как работа 2019 года пытается обнаружить более широкий набор поведений, но ее использование одного поверхностного CNN В статье утверждается, что они могли оказаться недостаточными для выполнения этой задачи.

Авторы отмечают, что некоторые из самых популярных исследований в этой области не оптимизированы для тестирования рекламы, потребности которого отличаются от потребностей таких областей, как вождение или образование, где размещение и калибровка камеры обычно определяются заранее, вместо этого полагаясь на неоткалиброванные настройки и работая в ограниченном диапазоне обзора настольных и мобильных устройств.

Поэтому они разработали архитектуру для определения внимания зрителей во время онлайн-рекламы, используя два коммерческих инструментария: АФФДЕКС 2.0 и SDK SmartEye.

Примеры анализа лица из AFFDEX 2.0. Источник: https://arxiv.org/pdf/2202.12059

Примеры анализа лица из AFFDEX 2.0. Источник: https://arxiv.org/pdf/2202.12059

Эти предыдущие работы извлекают низкоуровневые функции такие как выражение лица, поза головы и направление взгляда. Затем эти характеристики обрабатываются для получения индикаторов более высокого уровня, включая положение взгляда на экране; зевание; и речь.

Система выделяет четыре типа отвлекающих факторов: взгляд за кадром; сонливость,; Говоряи необслуживаемые экраны. Он также корректирует анализ взгляда в зависимости от того, находится ли зритель на настольном компьютере или на мобильном устройстве.

Наборы данных: Взгляд

Авторы использовали четыре набора данных для оценки системы обнаружения внимания: три из них были посвящены поведению взгляда, речи и зеванию, а четвертый был взят из реальных сеансов тестирования рекламы, содержащих смесь типов отвлекающих факторов.

Из-за особых требований работы были созданы пользовательские наборы данных для каждой из этих категорий. Все отобранные наборы данных были получены из собственного репозитория, содержащего миллионы записанных сеансов участников, просматривающих рекламу дома или на рабочем месте, с использованием веб-настройки, с информированного согласия, и из-за ограничений этих соглашений о согласии авторы заявляют, что наборы данных для новой работы не могут быть опубликованы.

Чтобы построить вглядываться набор данных, участников попросили следить за движущейся точкой по разным точкам на экране, включая его края, а затем отвести взгляд от экрана в четырех направлениях (вверх, вниз, влево и вправо), причем последовательность повторялась три раза. Таким образом, была установлена ​​связь между захватом и охватом:

Скриншоты, демонстрирующие видеостимул взгляда на (a) настольном компьютере и (b) мобильных устройствах. Первый и третий кадры показывают инструкции следить за движущейся точкой, а второй и четвертый побуждают участников отвести взгляд от экрана.

Скриншоты, демонстрирующие видеостимул взгляда на (a) настольном компьютере и (b) мобильных устройствах. Первый и третий кадры показывают инструкции следить за движущейся точкой, а второй и четвертый побуждают участников отвести взгляд от экрана.

Сегменты движущихся точек были помечены как внимательный, и закадровые сегменты как невнимательный, создавая маркированный набор данных, содержащий как положительные, так и отрицательные примеры.

Каждое видео длилось около 160 секунд, были созданы отдельные версии для настольных и мобильных платформ с разрешением 1920×1080 и 608×1080 соответственно.

Всего было собрано 609 видео, включая 322 записи с настольных компьютеров и 287 записей с мобильных устройств. Метки применялись автоматически на основе видеоконтента и набора данных раскол на 158 обучающих выборок и 451 тестовую.

Наборы данных: говорение

В этом контексте одним из критериев определения «невнимания» является то, когда человек говорит за дольше одной секунды (в этом случае это может быть мимолетный комментарий или даже кашель).

Поскольку контролируемая среда не записывает и не анализирует звук, речь выводится путем наблюдения за внутренним движением предполагаемых лицевых ориентиров. Поэтому для обнаружения Говоря без звука авторы создали набор данных, полностью основанный на визуальном вводе, взятом из их внутреннего хранилища и разделенном на две части: первая из них содержала около 5,500 видеороликов, каждый из которых вручную был помечен тремя аннотаторами как говорящий или не говорящий (из них 4,400 использовались для обучения и проверки, а 1,100 — для тестирования).

Во втором случае было 16,000 10,500 сеансов, автоматически маркированных по типу сеанса: 5,500 XNUMX участников репортажей молча смотрели рекламу, а XNUMX XNUMX участников шоу высказывали мнения о брендах.

Наборы данных: зевание

Хотя существуют некоторые «зияющие» наборы данных, в том числе YawDD и Усталость водителя, авторы утверждают, что ни один из них не подходит для сценариев тестирования рекламы, поскольку они либо содержат моделирующий зевает или же имеет искажения лица, которые можно спутать с страх, или другие действия, не связанные с зеванием.

Поэтому авторы использовали 735 видео из своей внутренней коллекции, выбрав сеансы, которые, скорее всего, содержат челюсть отвисла длительностью более одной секунды. Каждое видео вручную было помечено тремя аннотаторами как показывающее активный or неактивное зевание. Только 2.6 процента кадров содержали активные зевоты, что подчеркивает дисбаланс классов, а набор данных был разделен на 670 обучающих видеороликов и 65 тестовых.

Наборы данных: Отвлечение внимания

Радиус корня отвлечение Набор данных также был взят из репозитория тестирования рекламы авторов, где участники просматривали реальную рекламу без назначенных задач. Всего было выбрано 520 сеансов (193 на мобильных устройствах и 327 на компьютерах) и вручную помечено тремя аннотаторами как внимательный or невнимательный.

Невнимательное поведение включено взгляд за кадром, Говоря, сонливость и необслуживаемые экраны. Сеансы проводятся в разных регионах мира, при этом чаще используются записи с рабочего стола из-за гибкого размещения веб-камеры.

Модели внимания

Предлагаемая модель внимания обрабатывает низкоуровневые визуальные характеристики, а именно выражения лица, позу головы и направление взгляда, извлекаемые с помощью вышеупомянутых AFFDEX 2.0 и SmartEye SDK.

Затем они преобразуются в индикаторы высокого уровня, при этом каждый отвлекающий фактор обрабатывается отдельным бинарным классификатором, обученным на собственном наборе данных для независимой оптимизации и оценки.

Схема предлагаемой системы мониторинга.

Схема предлагаемой системы мониторинга.

Радиус корня вглядываться модель определяет, смотрит ли зритель на экран или от него, используя нормализованные координаты взгляда с отдельной калибровкой для настольных и мобильных устройств. Помощь этому процессу — линейный Машина опорных векторов (SVM), обученный на пространственных и временных характеристиках, который включает в себя окно памяти для сглаживания быстрых перемещений взгляда.

Обнаружить говорить без звука, система использовала обрезанные области рта и 3D-CNN, обученную как на разговорных, так и на неразговорных видеофрагментах. Метки назначались на основе типа сеанса, а временное сглаживание уменьшало ложные срабатывания, которые могут возникать из-за кратковременных движений рта.

Зевающий было обнаружено с помощью кадрирования изображений всего лица, чтобы захватить более широкое движение лица, с помощью 3D-CNN, обученной на вручную размеченных кадрах (хотя задача была осложнена низкой частотой зевания при естественном просмотре и его сходством с другими выражениями).

Отказ от экрана был идентифицирован по отсутствию лица или экстремальному положению головы, с прогнозами, сделанными Древо решений.

Окончательный статус внимания определялось с помощью фиксированного правила: если какой-либо модуль обнаруживал невнимательность, зритель отмечался невнимательный – подход, в котором приоритет отдается чувствительности и который настраивается отдельно для настольных и мобильных устройств.

Tests

Как упоминалось ранее, испытания проводятся по абляционному методу, при котором компоненты удаляются и фиксируется их влияние на результат.

В ходе исследования были выявлены различные категории воспринимаемой невнимательности.

В ходе исследования были выявлены различные категории воспринимаемой невнимательности.

Модель взгляда определяла поведение вне экрана с помощью трех ключевых этапов: нормализация необработанных оценок взгляда, тонкая настройка выходных данных и оценка размера экрана для настольных устройств.

Чтобы понять важность каждого компонента, авторы удалили их по отдельности и оценили производительность на 226 настольных и 225 мобильных видео, взятых из двух наборов данных. Результаты, измеренные G-среднее и F1 баллы показаны ниже:

Результаты, демонстрирующие эффективность модели полного взгляда, а также версии с удаленными отдельными этапами обработки.

Результаты, демонстрирующие эффективность модели полного взгляда, а также версии с удаленными отдельными этапами обработки.

В каждом случае производительность снижалась, когда шаг был пропущен. Нормализация оказалась особенно ценной на настольных компьютерах, где расположение камеры различается сильнее, чем на мобильных устройствах.

В исследовании также оценивалось, как визуальные характеристики предсказывали ориентацию мобильной камеры: положение лица, поза головы и направление взгляда набрали 0.75, 0.74 и 0.60 баллов, тогда как их комбинация достигла 0.91, что, по словам авторов, подчеркивает преимущество интеграции нескольких сигналов.

Радиус корня Говоря модель, обученная на вертикальном расстоянии губ, достигла ОКР-АУК 0.97 на маркированном вручную тестовом наборе и 0.96 на более крупном наборе данных с автоматической маркировкой, что указывает на стабильную производительность в обоих случаях.

Радиус корня зевающий Модель достигла ROC-AUC 96.6 процентов, используя только соотношение сторон рта, которое улучшилось до 97.5 процентов при сочетании с блок действий прогнозы от AFFDEX 2.0.

Модель с неконтролируемым экраном классифицировала моменты как невнимательный когда и AFFDEX 2.0, и SmartEye не смогли обнаружить лицо более одной секунды. Чтобы оценить достоверность этого, авторы вручную аннотировали все такие события отсутствия лица в настоящее отвлечение набор данных, определяющий основную причину каждой активации. Неоднозначные случаи (например, заграждение камеры или искажение видео) были исключены из анализа.

Как показано в таблице результатов ниже, только 27 процентов активаций «без лица» были вызваны тем, что пользователи физически отрывались от экрана.

Были получены различные причины, по которым в некоторых случаях лицо не было найдено.

Были получены различные причины, по которым в некоторых случаях лицо не было найдено.

В документе говорится:

«Несмотря на то, что оставленные без присмотра экраны составили всего 27% случаев срабатывания сигнала отсутствия лица, он активировался и по другим причинам, указывающим на невнимательность, например, когда участники смотрели за пределы экрана под слишком большим углом, совершали чрезмерные движения или значительно закрывали лицо предметом/рукой».

В последнем количественном тесте авторы оценили, как постепенное добавление различных отвлекающих сигналов — взгляда за пределами экрана (через взгляд и позу головы), сонливости, разговора и оставленных без присмотра экранов — влияло на общую эффективность их модели внимания.

Тестирование проводилось на двух наборах данных: настоящее отвлечение набор данных и тестовый поднабор вглядываться набор данных. Для измерения производительности использовались показатели G-mean и F1 (хотя сонливость и речь были исключены из анализа набора данных взгляда из-за их ограниченной значимости в этом контексте).

Как показано ниже, обнаружение внимания постоянно улучшалось по мере добавления новых типов отвлекающих факторов, при этом взгляд за кадром, наиболее распространенный отвлекающий фактор, обеспечивающий самую сильную исходную позицию.

Эффект добавления в архитектуру разнообразных отвлекающих сигналов.

Эффект добавления в архитектуру разнообразных отвлекающих сигналов.

В статье говорится следующее:

«Из результатов мы можем сделать первый вывод, что интеграция всех отвлекающих сигналов способствует более эффективному обнаружению внимания.

«Во-вторых, улучшение обнаружения внимания наблюдается как на настольных компьютерах, так и на мобильных устройствах. В-третьих, мобильные сессии в реальном наборе данных показывают значительные движения головы при отводе взгляда, которые легко обнаруживаются, что приводит к более высокой производительности мобильных устройств по сравнению с настольными компьютерами. В-четвертых, добавление сигнала сонливости дает относительно небольшое улучшение по сравнению с другими сигналами, поскольку обычно это случается редко».

«Наконец, сигнал с экрана, оставленного без присмотра, имеет относительно большее улучшение на мобильных устройствах по сравнению с настольными компьютерами, поскольку мобильные устройства можно легко оставлять без присмотра».

Авторы также сравнили свою модель с AFFDEX 1.0, предыдущей системой, которая использовалась при тестировании рекламы, — и даже текущая модель с функцией распознавания взгляда на основе движений головы превзошла AFFDEX 1.0 на обоих типах устройств:

«Это улучшение стало результатом учёта движений головы как по рысканию, так и по тангажу, а также нормализации положения головы для учёта незначительных изменений. Выраженные движения головы в реальном мобильном наборе данных привели к тому, что наша модель головы стала работать аналогично AFFDEX 1.0».

Авторы завершают статью (возможно, довольно поверхностным) качественным тестовым раундом, показанным ниже.

Примеры результатов модели внимания на настольных компьютерах и мобильных устройствах, где в каждой строке представлены примеры истинных и ложных срабатываний для различных типов отвлекающих факторов.

Примеры результатов модели внимания на настольных компьютерах и мобильных устройствах, где в каждой строке представлены примеры истинных и ложных срабатываний для различных типов отвлекающих факторов.

Авторы заявляют:

«Результаты показывают, что наша модель эффективно обнаруживает различные отвлекающие факторы в неконтролируемых условиях. Однако иногда она может давать ложные срабатывания в определенных пограничных случаях, таких как сильный наклон головы при сохранении взгляда на экране, некоторые окклюзии рта, чрезмерно размытые глаза или сильно затемненные изображения лица».

Заключение

Хотя результаты представляют собой измеренный, но значимый прогресс по сравнению с предыдущей работой, более глубокая ценность исследования заключается в том, что оно дает возможность заглянуть в постоянное стремление получить доступ к внутреннему состоянию наблюдателя. Хотя данные собирались с согласия, методология указывает на будущие рамки, которые могут выйти за рамки структурированных настроек исследования рынка.

Этот довольно параноидальный вывод лишь подкрепляется замкнутым, ограниченным и ревностно охраняемым характером этого конкретного направления исследований.

 

* Мое преобразование встроенных ссылок авторов в гиперссылки.

Впервые опубликовано Среда, 9 апреля 2025 г.