Umělá inteligence
Identifikace škodlivého videoobsahu s pomocí filmových trailerů a strojového učení

Výzkumná práce Švédské mediální rady představuje možný nový přístup k automatické identifikaci “škodlivého obsahu”, který zahrnuje zvažování audio a video obsahu zvlášť a použití lidsky anotovaných dat jako vodítka pro materiál, který může rušit diváky.
Entitled Je to škodlivé? Učení se předpovídat hodnocení škodlivosti z videa, paper ilustruje potřebu systémů strojového učení brát v úvahu celý kontext scény a ilustruje mnoho způsobů, jakými neškodný obsah (jako humorný nebo satirický obsah) mohl být špatně interpretován jako škodlivý v méně sofistikovaném a multimodálním přístupu k videoanalýze – nejméně proto, že filmová soundtrack je často používána neočekávanými způsoby, buď k znepokojení nebo uklidnění diváka, a jako protiklad spíše než doplněk k vizuální složce.
Soubor potenciálně škodlivých videí
Výzkumníci poznamenávají, že užitečné vývoj v tomto sektoru byl brzděn autorskou ochranou filmů, která činí vytvoření obecného otevřeného souboru dat problematickým. Také pozorují, že dosud podobné experimenty trpěly nedostatkem štítků pro celovečerní filmy, což vedlo k předchozím pracím, které zjednodušují přispívající data, nebo se zaměřují pouze na jeden aspekt dat, jako jsou dominantní barvy nebo analýza dialogu.
Aby se touto situaci zabývali, výzkumníci sestavili video soubor 4000 video klipů, trailerů zkrácených na asi deset sekund, které byly poté označeny profesionálními filmovými klasifikátory, kteří dohlížejí na aplikaci hodnocení pro nové filmy ve Švédsku, mnozí z nich s profesionální kvalifikací v dětské psychologii.
Pod švédským systémem filmové klasifikace je “škodlivý” obsah definován na základě jeho možné schopnosti produkovat pocity úzkosti, strachu a dalších negativních účinků u dětí. Výzkumníci poznamenávají, že поскольку tento systém hodnocení zahrnuje tolik intuice a instinktu jako vědy, parametry pro definici “škodlivého obsahu” jsou obtížně kvantifikovatelné a instalovatelné do automatizovaného systému.
Definice škodlivosti
Paper dále pozoruje, že dřívější systémy strojového učení a algoritmické systémy, které se zabývají touto výzvou, používaly specifickou detekci jako kritérium, včetně vizuální detekce krve a plamenů, zvuku výstřelu a frekvence délky záběru, mezi jinými omezenými definicemi škodlivého obsahu, a že multi-doménový přístup se zdá být lepší metodou pro automatické hodnocení škodlivého obsahu.
Švédští výzkumníci trénovali 8×8 50-vrstvový neuronový síťový model na Kinetics-400 human movement benchmark dataset a vytvořili architekturu navrženou k fúzi video a audio předpovědí.
V podstatě použití trailerů řeší tři problémy pro vytvoření souboru dat této povahy: eliminuje autorské problémy; zvýšená turbulence a vyšší frekvence záběrů trailerů (ve srovnání s původními filmy) umožňuje větší frekvenci anotace; a zajišťuje, že nízká incidence násilného nebo rušivého obsahu v celém filmu nezpůsobí nesoulad souboru dat a náhodné zařazení do kategorie vhodného pro děti.
Výsledky
Jakmile byl model trénován, švédští výzkumníci otestovali systém proti video-klipům.
V tomto traileru pro The Deep (2012), dva modely použité pro testování systému (náhodně vybrané štítky vs. pravděpodobnostní štítky) úspěšně klasifikovaly film jako vhodný pro diváky ve věku 11 a více let.

Source: https://arxiv.org/pdf/2106.08323.pdf
Pro scénu z Discarnate (2018), kde je představen monstrózní antagonista, dvojí rámec opět správně odhadl cílový věkový rozsah jako 11+/15+.

Nicméně, klip z traileru pro A Second Chance (2014) představoval větší obtíž, protože model nebyl schopen souhlasit s lidskými anotacemi pro scénu, která byla klasifikována jako ‘BT’ (univerzálně přijatelná). V podstatě, algoritmus detekoval potenciál pro škodlivost, kterou lidský vyhodnotitelé nepřisuzují jí.

Ačkoli výzkumníci potvrzují vysokou přesnost skóre pro systém, některé selhání se vyskytly, jako je tento klip z City State (2011), který zobrazuje nahého muže ohroženého puškou.
V tomto případě systém přiřadil klipu hodnocení 11+, na rozdíl od lidských anotací.

Dissonance záměru a škodlivosti
Paper poznamenává, že při hodnocení klipu z traileru pro Paydirt (2020), systém správně přiřadil klipu ‘univerzální’ hodnocení na základě vizuálních a lingvistických aspektů (ačkoli postavy diskutují o střelných zbraních, záměr je komediální), ale byl zmaten dissonantně hrozivou hudbou, která má satirický kontext.

Podobně v traileru pro film For Sama (2019), hrozivý styl hudebního obsahu se neshoduje s vizuálním obsahem, a opět, systém má potíže s rozplétáním obou složek, aby učinil jednotné rozhodnutí, které pokrývá obě audio a video složky klipu.

Nakonec, systém správně naviguje audio/video dissonanci v trailer klipu pro Virgin Mountain (2015), který obsahuje některé hrozivé vizuální signály (tj. rozbité okno), které jsou oslabeny hudbou. Takže rámec správně odhadl, že klip je hodnocen ‘univerzálně’ (BT).

Výzkumníci uznávají, že systém této povahy je výhradně zaměřen na děti, s výsledky, které se nebudou dobře generalizovat na jiné typy diváků. Také navrhují, že kodifikace “škodlivého” obsahu tímto lineárním způsobem by mohla potenciálně vést k algoritmickým ratingovým systémům, které jsou méně nepředvídatelné, ale poznamenávají potenciál pro nežádoucí potlačení myšlenek při vývoji takových přístupů:
‘Hodnocení, zda je obsah škodlivý, je jemná záležitost. Existuje důležitý rovnovážný akt mezi svobodou informací a ochranou citlivých skupin. Věříme, že tato práce jde správným směrem, být co nejtransparentnější o kritériích, která se používají k hodnocení škodlivosti. Kromě toho věříme, že oddělení škodlivosti od vhodnosti je důležitým krokem k tomu, aby klasifikace škodlivého obsahu byla objektivnější.
‘…Detekce škodlivého obsahu je také zajímavá pro online platformy, jako je YouTube. Na těchto platformách se rovnovážný akt mezi svobodou informací a ochranou stává ještě důležitějším a je dále komplikován vlastnickou povahou algoritmů odpovědných.’












