Stumm Identifizéiere schiedlech Videoinhalt Mat Film Trailer a Machine Learning - Unite.AI
Connect mat eis

Kënschtlech Intelligenz

Identifizéiere schiedleche Videoinhalt Mat Film Trailer a Machine Learning

mm
aktualiséiert on

E Fuerschungspabeier vum schwedesche Medierot beschreift eng méiglech nei Approche fir d'automatesch Identifikatioun vu "schiedlechen Inhalter", andeems Dir Audio- a Videoinhalt getrennt berücksichtegt, a mënschlech annotéiert Donnéeën als Guideindex benotzt fir Material dat Zuschauer stéieren kann.

Entlooss goufen Ass dëst schiedlech? Léiere fir Schiedlechkeet Bewäertunge vu Video virauszesoen, déi Pabeier illustréiert d'Noutwendegkeet vu Maschinnléiere Systemer fir de ganze Kontext vun enger Szen ze berücksichtegen, an illustréiert déi vill Manéiere wéi onschëlleg Inhalter (wéi humoristesch oder satiresch Inhalter) falsch interpretéiert kënne ginn als schiedlech an enger manner raffinéierter a multimodaler Approche fir Videoanalyse - net zulescht well de musikalesche Soundtrack vun engem Film dacks op onerwaarte Manéier benotzt gëtt, entweder fir den Zuschauer ze berouegen oder ze berouegen, an als Kontrapunkt anstatt als Ergänzung zum visuelle Volet.

En Dataset vu potenziell schiedleche Videoen

D'Fuerscher bemierken datt nëtzlech Entwécklungen an dësem Secteur vum Copyright Schutz vu Bewegungsbilder behënnert goufen, wat d'Schafung vun generaliséierten Open Source Datesätz problematesch mécht. Si beobachten och datt bis haut ähnlech Experimenter ënner enger Sparsitéit vun Etiketten fir Volllängtfilmer gelidden hunn, wat zu enger fréierer Aarbecht gefouert huet, déi dozou bäigedroen Donnéeën ze iwwersimplizéieren, oder nëmmen een Aspekt vun den Donnéeën anzeginn, sou wéi dominant Faarwen oder Dialog. Analyse.

Fir dëst unzegoen, hunn d'Fuerscher e Video-Datasaz vu 4000 Videoclips zesummegesat, Trailer ofgeschnidden an Stécker vu ronn zéng Sekonnen an der Längt, déi duerno vu professionelle Filmklassifizéierer markéiert goufen, déi d'Uwendung vun Bewäertunge fir nei Filmer a Schweden iwwerwaachen, vill mat berufflech Qualifikatiounen an Kannerpsychologie.

Ënnert dem schwedesche System vu Filmklassifizéierung gëtt 'schiedlech' Inhalter definéiert op Basis vu senger méiglecher Tendenz fir Gefiller vu Besuergnëss, Angscht an aner negativ Auswierkunge bei Kanner ze produzéieren. D'Fuerscher bemierken datt zënter dësem Bewäertungssystem esou vill Intuition an Instinkt wéi Wëssenschaft involvéiert sinn, sinn d'Parameteren fir d'Definitioun vu "schiedlechen Inhalt" schwéier ze quantiséieren an an en automatiséierte System z'informéieren.

Definitioun vu Schued

De Pabeier beobachtet weider datt fréier Maschinnléieren an algorithmesch Systemer, déi dës Erausfuerderung adresséieren, spezifesch Facettenerkennung als Critère benotzt hunn, dorënner d'visuell Detektioun vu Blutt a Flamen, de Sound vum Burst, an d'Frequenz vun der Schéisslängt, ënner anerem limitéierten Definitioune vu schiedlechen. Inhalt, an datt eng Multi-Domain Approche schéngt méiglecherweis eng besser Methodik ze bidden fir automatesch Bewäertung vu schiedlechen Inhalter.

Déi schwedesch Fuerscher trainéiert en 8 × 8 50-Schicht neuralt Netzwierkmodell op der Kinetics-400 mënschlech Bewegung Benchmark Datebank, an huet eng Architektur erstallt fir Video an Audio Prognosen ze fusionéieren.

Tatsächlech léist d'Benotzung vun Unhänger dräi Probleemer fir d'Schafung vun engem Datesaz vun dëser Natur: et vermeit Copyright Themen; déi erhéicht Turbulenzen a méi héije Schéissfrequenz vun Unhänger (am Verglach mat den ursprénglechen Filmer), erlaabt eng méi grouss Frequenz vun der Annotatioun; an et garantéiert datt déi niddreg Heefegkeet vu gewaltsamen oder beonrouegende Inhalter an engem ganze Film d'Datasaz net ausbalancéiert an zoufälleg als gëeegent fir Kanner klasséiert.

Resultater

Nodeems de Modell trainéiert gouf, hunn déi schwedesch Fuerscher de System géint Videoclips getest.

An dësem Trailer fir De Deep (2012), déi zwee Modeller, déi benotzt gi fir de System ze testen (zoufälleg gepréift Etiketten vs. Probabilistesch Etiketten) hunn de Film erfollegräich klasséiert als gëeegent fir Zuschauer vu 11 Joer a méi.

Source: https://arxiv.org/pdf/2106.08323.pdf

Source: https://arxiv.org/pdf/2106.08323.pdf

Fir eng Zeen aus Discarnéieren (2018) wou e monstréisen Antagonist agefouert gëtt, huet den duebele Kader erëm d'Zilaltersberäich als 11+/15+ korrekt geschat.

Allerdéngs e Clip aus dem Trailer fir Eng Zweet Chance (2014) huet méi Schwieregkeeten presentéiert, well de Modell net fäeg war mat de mënschlechen Annotatiounen fir d'Szen averstanen ze hunn, déi et als 'BT' klasséiert hat (universell akzeptabel). Tatsächlech huet den Algorithmus Potenzial fir Schued festgestallt, deen d'mënschlech Evaluatoren et net zougeschriwwen hunn.

Och wann d'Fuerscher eng héich Genauegkeet Score fir de System bestätegen, sinn e puer Feeler geschitt, sou wéi dësen Clip vun Stad Staat (2011), deen e festgehale plakege Mann weist, dee mat engem Gewier menacéiert ass.

An dësem Fall huet de System en 11+ Bewäertung un de Clip zougewisen, am Géigesaz zu de mënschlechen Annotatiounen.

Dissonanz vun Absicht a Schiedlechkeet

De Pabeier stellt fest, datt bei der Evaluatioun vun engem Clip aus dem Trailer fir Paytair (2020), gëtt de System de Clip korrekt eng 'universell' Bewäertung baséiert op visuellen a sproochlechen Aspekter (obwuel d'Personnagen iwwer Feierwaffen diskutéieren, d'Intent ass komesch), awer ass duerch déi dissonant menacéiert Musek verwiesselt, déi benotzt gëtt, déi e satiresche Kontext.

Och an engem Trailer fir de Film Fir de Sama (2019), ass de bedrohende Stil vum musikaleschen Inhalt net vum visuellen Inhalt entsprécht, an nach eng Kéier erlieft de System Schwieregkeete fir déi zwee Komponenten ze trennen fir en eenheetlechen Uerteel ze maachen dat souwuel den Audio- a Videoinhalt vum Clip deckt.

Endlech, de System navigéiert richteg Audio / Video Dissonanz an engem Trailer Clip fir Virgin Mountain (2015). Also de Kader ass richteg datt de Clip als "universell" (BT) bewäert ass.

D'Fuerscher zouginn datt e System vun dëser Natur exklusiv op Kanner konzentréiert ass, mat de Resultater onwahrscheinlech gutt op aner Aarte vu Betrachter ze generaliséieren. Si proposéiere och datt d'Kodifikatioun vun 'schiedlechen' Inhalter op dëser linearer Manéier potenziell zu algorithmesche Bewäertungssystemer kéint féieren, déi manner onberechenbar sinn, awer notéiert d'Potenzial fir ongewollte Repressioun vun Iddien an der Entwécklung vun esou Approchen:

'Bewäerten ob Inhalt schiedlech ass e delikat Thema. Et gëtt e wichtege Gläichgewiicht tëscht Informatiounsfräiheet a Schutz vu sensiblen Gruppen. Mir gleewen datt dës Aarbecht e Schrëtt an déi richteg Richtung mécht, andeems mir sou transparent wéi méiglech sinn iwwer d'Critèrë fir d'Schädlechkeet ze bewäerten. Ausserdeem gleewen mir datt d'Schädlechkeet vun der Egenheet trennen e wichtege Schrëtt ass fir d'Klassifikatioun vum schiedlechen Inhalt méi objektiv ze maachen.

"... Schiedlechen Inhalt z'entdecken ass och interessant fir Online Plattformen wéi YouTube. Op esou Plattformen gëtt de Gläichgewiicht tëscht Informatiounsfräiheet a Schutz nach méi wichteg a gëtt weider komplizéiert duerch d'propriétaire Natur vun den verantwortlechen Algorithmen.'