Штучний інтелект
Визначення шкідливого відеоконтенту за допомогою трейлерів фільмів та машинного навчання

Дослідницька робота Шведської медійної ради окреслює можливий новий підхід до автоматичної ідентифікації “шкідливого контенту”, розглядаючи аудіо- та відеоконтент окремо, та використовуючи дані, анотовані людьми, як орієнтовний індекс для матеріалів, які можуть турбувати глядачів.
Entitled Чи це шкідливо? Навчання передбачення оцінок шкідливості з відео, робота документу ілюструє необхідність того, щоб системи машинного навчання враховували весь контекст сцени, та ілюструє багато способів, як безневинний контент (наприклад, гумористичний або сатиричний контент) міг бути неправильно інтерпретований як шкідливий у менш складному та багатомодальному підході до відеоаналізу – не в останню чергу тому, що музичний саундтрек фільму часто використовується в несподіваних способах, або щоб турбувати, або заспокоїти глядача, та як контрпункт, а не доповнення до візуальної складової.
Датасет потенційно шкідливих відео
Дослідники зазначають, що корисні розробки в цьому секторі були ускладнені захистом авторських прав кінофільмів, який робить створення загальних відкритих наборів даних проблематичним. Вони також відзначають, що до цього часу подібні експерименти страждали від нестачі міток для повнометражних фільмів, що призвело до спрощення даних у попередній роботі, або зосередження уваги лише на одному аспекті даних, наприклад, на домінантних кольорах або аналізі діалогів.
Щоб подолати цю проблему, дослідники скомпільовали відеодатасет з 4000 відеокліпів, трейлерів, розрізаних на частини близько десяти секунд кожна, які потім були помічені професійними кінокласифікаторами, що наглядають за застосуванням рейтингів для нових фільмів у Швеції, багато з яких мають професійні кваліфікації в дитячій психології.
За шведською системою класифікації фільмів “шкідливий” контент визначається на основі його можливої схильності викликати почуття тривоги, страху та інших негативних ефектів у дітей. Дослідники зазначають, що оскільки ця система рейтингів включає стільки ж інтуїції та інстинкту, скільки й науки, параметри визначення “шкідливого контенту” важко кванталізувати та вбудувати в автоматизовану систему.
Визначення шкоди
Документ далі зазначає, що попередні системи машинного навчання та алгоритмічні системи, що займаються цією проблемою, використовували специфічне виявлення окремих аспектів як критерій, включаючи візуальне виявлення крові та полум’я, звук вибуху, та частоту тривалості кадрів, серед інших обмежених визначень шкідливого контенту, та що багатомодальний підхід, ймовірно, запропонує кращу методологію для автоматичного рейтингу шкідливого контенту.
Шведські дослідники тренували 8×8 50-шаровий нейронний мережевий модель на Kinetics-400 бенчмарку руху людини датасету, та створили архітектуру, призначену для об’єднання відео- та аудіопередбачень.
По суті, використання трейлерів розв’язує три проблеми для створення датасету цього типу: це усуває проблеми з авторськими правами; підвищена турбулентність та вища частота кадрів трейлерів (у порівнянні з оригінальними фільмами) дозволяють частіше анотовувати дані; та це забезпечує те, що низька частота насильницького або турбуючого контенту в усьому фільмі не збиває датасет та випадково класифікує його як підходящий для дітей.
Результати
Як тільки модель була тренована, шведські дослідники протестували систему проти відеокліпів.
У цьому трейлері для Глибина (2012), дві моделі, використані для тестування системи (випадково вибрані мітки проти ймовірнісних міток), успішно класифікували фільм як підходящий для глядачів віком 11 років і старше.

Джерело: https://arxiv.org/pdf/2106.08323.pdf
Для сцени з Дискарнат (2018), де представлений монструозний антагоніст, подвійна структура знову правильно оцінила цільовий вік як 11+/15+.

Однак, кліп з трейлера для Другий шанс (2014) представив більшу складність, оскільки модель не змогла погодитися з людськими анотаціями для сцени, яку класифікували як “BT” (універсально прийнятна). По суті, алгоритм виявив потенційну шкоду, якої людські оцінювачі не приписали йому.

Хоча дослідники засвідчують високу точність системи, деякі невдачі все ж відбулися, наприклад, цей кліп з Місто-держава (2011), який містить затриманого голого чоловіка, загрозливого з рушницею.
У цьому випадку система призначила рейтинг 11+ кліпу, на відміну від людських анотацій.

Дисонанс наміру та шкідливості
Документ зазначає, що при оцінці кліпу з трейлера для Платіж (2020), система правильно призначила “універсальний” рейтинг кліпу на основі візуальних та лінгвістичних аспектів (хоча персонажі обговорюють вогнепальну зброю, намір є комедійним), але була плутана дисонансно- загрозливою музикою, яка могла мати сатиричний контекст.

Аналогічно у трейлері до фільму Для Сами (2019), загрозливий стиль музичного контенту не відповідає візуальному контенту, та знову система переживає труднощі у розрізненні двох складових для формування єдиного судження, яке охоплює як аудіо-, так і відеоконтент кліпу.

Нарешті, система правильно навигує аудіо/відео-дисонанс у трейлерному кліпі для Гірська дева (2015), який містить деякі загрозливі візуальні сигнали (наприклад, розбите вікно), які підкреслюються музикою. Таким чином, структура правильно здогадується, що кліп має рейтинг “універсальний” (BT).

Дослідники погоджуються, що система такого типу виключно зосереджена на дітях, з результатами, які малоймовірно узагальнюватимуться на інших типах глядачів. Вони також зазначають, що кодифікація “шкідливого” контенту таким лінійним способом потенційно може привести до алгоритмічних систем рейтингів, які є менш непередбачуваними, але відзначають потенційну небажану репресію ідей при розробці таких підходів:
‘Оцінка того, чи є контент шкідливим, є деликатною проблемою. Існує важливий баланс між свободою інформації та захистом чутливих груп. Ми вважаємо, що ця робота робить крок у правильному напрямку, будучи якомога прозорішою щодо критеріїв, які використовуються для оцінки шкідливості. Крім того, ми вважаємо, що розділення шкідливості від підходящості є важливим кроком до того, щоб зробити класифікацію шкідливого контенту більш об’єктивною.
‘…Виявлення шкідливого контенту також становить інтерес для онлайн-платформ, таких як YouTube. На таких платформах баланс між свободою інформації та захистом стає ще важливішим і ускладнюється приватною природою алгоритмів, відповідальних за це.’












