Kunstmatige intelligentie
Het identificeren van schadelijke videoinhoud met filmtrailers en machine learning

Een onderzoeksrapport van de Zweedse Media Raad schetst een mogelijke nieuwe aanpak voor de automatische identificatie van ‘schadelijke inhoud’, door audio- en videoinhoud afzonderlijk te beschouwen en gebruik te maken van door mensen geannoteerde gegevens als leidraad voor materiaal dat kijkers kan storen.
Genoemd Is dit schadelijk? Leren om schadelijkheidscijfers te voorspellen van video, illustreert het rapport de noodzaak voor machine learning-systemen om rekening te houden met de gehele context van een scène en illustreert de vele manieren waarop onschadelijke inhoud (zoals humoristische of satirische inhoud) verkeerd kan worden geïnterpreteerd als schadelijk in een minder geavanceerde en multimodale aanpak van videoanalyse – niet in de laatste plaats omdat de filmmuziek vaak op onverwachte wijze wordt gebruikt, ofwel om de kijker onrustig te maken of te kalmeren, en als een tegenpool in plaats van een aanvulling op de visuele component.
Een dataset van potentieel schadelijke video’s
De onderzoekers merken op dat nuttige ontwikkelingen in deze sector zijn gehinderd door auteursrechtbescherming van films, waardoor het creëren van algemene open-source datasets problematisch is. Zij observeren ook dat eerder onderzoek heeft geleden onder een gebrek aan labels voor volledige films, wat heeft geleid tot eerdere vereenvoudiging van de bijdragende gegevens of focus op slechts één aspect van de gegevens, zoals dominante kleuren of dialooganalyse.
Om dit aan te pakken, hebben de onderzoekers een videodataset van 4000 videoclips samengesteld, trailers die zijn ingekort tot stukken van ongeveer tien seconden lang, die vervolgens zijn gelabeld door professionele filmclassificators die toezicht houden op de toepassing van ratings voor nieuwe films in Zweden, veelal met professionele kwalificaties in kinderpsychologie.
Onder het Zweedse systeem van filmclassificatie wordt ‘schadelijke’ inhoud gedefinieerd op basis van de mogelijke neiging om gevoelens van angst, angst en andere negatieve effecten bij kinderen te produceren. De onderzoekers merken op dat aangezien dit ratingsysteem evenveel intuïtie en instinct als wetenschap omvat, de parameters voor de definitie van ‘schadelijke inhoud’ moeilijk te kwantificeren en in een geautomatiseerd systeem te integreren zijn.
Definiëren van schade
Het rapport merkt verder op dat eerdere machine learning- en algoritme-systemen die deze uitdaging aangaan, specifieke facetdetectie hebben gebruikt als criteria, waaronder visuele detectie van bloed en vlammen, het geluid van barsten en de frequentie van shotlengte, onder andere beperkte definities van schadelijke inhoud, en dat een multi-domeinbenadering waarschijnlijk een betere methodologie biedt voor de automatische beoordeling van schadelijke inhoud.
De Zweedse onderzoekers hebben een 8×8 50-laags neuronaal netwerkmodel getraind op de Kinetics-400 human movement benchmark dataset, en hebben een architectuur ontwikkeld om videovoorspellingen en audiovoorspellingen te combineren.
In feite lost het gebruik van trailers drie problemen op voor het creëren van een dataset van deze aard: het voorkomt auteursrechtproblemen; de toegenomen turbulentie en hogere shotfrequentie van trailers (in vergelijking met de oorspronkelijke films) maken een grotere frequentie van annotatie mogelijk; en het zorgt ervoor dat de lage incidentie van gewelddadige of verontrustende inhoud in een hele film de dataset niet uit balans brengt en per ongeluk classificeert als geschikt voor kinderen.
Resultaten
Nadat het model was getraind, hebben de Zweedse onderzoekers het systeem getest tegen videoclips.
In deze trailer voor The Deep (2012), hebben de twee modellen die zijn gebruikt voor het testen van het systeem (willekeurig bemonsterde labels vs. probabilistische labels) de film met succes geclassificeerd als geschikt voor kijkers van 11 jaar en ouder.

Source: https://arxiv.org/pdf/2106.08323.pdf
Voor een scène uit Discarnate (2018) waarin een monsterachtige antagonist wordt geïntroduceerd, heeft het dubbele kader opnieuw de doelgroepleeftijd correct geschat als 11+/15+.

Echter, een clip uit de trailer voor A Second Chance (2014) bood grotere moeilijkheden, aangezien het model niet in staat was om overeen te komen met de menselijke annotaties voor de scène, die was geclassificeerd als ‘BT’ (universeel acceptabel). In feite heeft het algoritme de potentie voor schade gedetecteerd die de menselijke evaluatoren niet heeft toegeschreven.

Hoewel de onderzoekers een hoge nauwkeurigheidsscore voor het systeem claimen, traden enkele fouten op, zoals deze clip uit City State (2011), die een naakte man toont die met een geweer wordt bedreigd.
In dit geval heeft het systeem een 11+ rating toegewezen aan de clip, in tegenstelling tot de menselijke annotaties.

Dissonantie van intentie en schadelijkheid
Het rapport merkt op dat bij het evalueren van een clip uit de trailer voor Paydirt (2020), het systeem correct een ‘universele’ rating toewijst aan de clip op basis van de visuele en linguïstische aspecten (hoewel personages over vuurwapens praten, is de intentie komisch), maar wordt verward door de dissonant dreigende muziek die wordt gebruikt, die een satirische context kan hebben.

Evenzo in een trailer voor de film For Sama (2019), wordt de dreigende stijl van de muzikale inhoud niet gematcht door de visuele inhoud, en opnieuw ervaart het systeem moeilijkheden bij het ontwarren van de twee componenten om een uniform oordeel te vellen dat zowel de audio- als de videoinhoud van de clip dekt.

Ten slotte navigeert het systeem correct door audio-/videodissonantie in een trailerclip voor Virgin Mountain (2015), die enkele bedreigende visuele signalen bevat (bijv. een gebroken raam) die worden ondermijnd door de muziek. Zo schat het kader correct dat de clip is gerangschikt als ‘universeel’ (BT).

De onderzoekers geven toe dat een systeem van deze aard uitsluitend is gericht op kinderen, met resultaten die onwaarschijnlijk goed generaliseren naar andere soorten kijkers. Zij suggereren ook dat het codificeren van ‘schadelijke’ inhoud op deze lineaire manier mogelijk kan leiden tot algoritme- ratingsystemen die minder onvoorspelbaar zijn, maar merken op het potentieel voor ongewenste onderdrukking van ideeën bij de ontwikkeling van dergelijke benaderingen:
‘Het beoordelen of inhoud schadelijk is, is een delicate kwestie. Er bestaat een belangrijke balans tussen vrijheid van informatie en het beschermen van gevoelige groepen. Wij geloven dat dit werk een stap in de goede richting zet, door zo transparant mogelijk te zijn over de criteria die worden gebruikt om de schadelijkheid te beoordelen. Bovendien geloven wij dat het scheiden van schadelijkheid van geschiktheid een belangrijke stap is naar het maken van classificatie van schadelijke inhoud meer objectief.
‘…Het detecteren van schadelijke inhoud is ook van belang voor onlineplatforms zoals YouTube. Op dergelijke platforms wordt de balans tussen vrijheid van informatie en bescherming nog belangrijker en wordt deze nog verder gecompliceerd door de propriëtaire aard van de algoritmes die verantwoordelijk zijn.’












