taló Identificació de contingut de vídeo nociu amb tràilers de pel·lícules i aprenentatge automàtic - Unite.AI
Connecteu-vos amb nosaltres

Intel·ligència Artificial

Identificació de contingut de vídeo nociu amb tràilers de pel·lícules i aprenentatge automàtic

mm
actualitzat on

Un document d'investigació del Consell de Mitjans de Comunicació Suec exposa un possible nou enfocament per a la identificació automàtica de "contingut nociu", considerant el contingut d'àudio i de vídeo per separat, i utilitzant dades anotades per humans com a índex de guia per al material que pot molestar els espectadors.

Intitulado Això és perjudicial? Aprendre a predir les classificacions de nocivitat a partir del vídeo, El paper il·lustra la necessitat que els sistemes d'aprenentatge automàtic tinguin en compte tot el context d'una escena i il·lustra les moltes maneres en què el contingut innòcu (com el contingut humorístic o satíric) podria ser malinterpretat com a nociu en un enfocament menys sofisticat i multimodal de l'anàlisi de vídeo: sobretot perquè la banda sonora musical d'una pel·lícula s'utilitza sovint de manera inesperada, ja sigui per inquietar o tranquil·litzar l'espectador, i com a contrapunt més que com a complement del component visual.

Un conjunt de dades de vídeos potencialment nocius

Els investigadors assenyalen que els desenvolupaments útils en aquest sector s'han vist impedits per la protecció dels drets d'autor de les pel·lícules en moviment, la qual cosa fa que la creació de conjunts de dades generalitzats de codi obert sigui problemàtica. També observen que fins ara, experiments similars han patit una escàs etiquetes per a les pel·lícules de llarga durada, la qual cosa ha fet que el treball previ simplifiqui massa les dades aportades o introduïssin només un aspecte de les dades, com ara els colors dominants o els diàlegs. anàlisi.

Per solucionar-ho, els investigadors han compilat un conjunt de dades de vídeo de 4000 clips de vídeo, tràilers retallats en trossos d'uns deu segons de durada, que després van ser etiquetats per classificadors de pel·lícules professionals que supervisen l'aplicació de classificacions de pel·lícules noves a Suècia, moltes amb qualificacions professionals en psicologia infantil.

Sota el sistema suec de classificació de pel·lícules, el contingut "nociu" es defineix en funció de la seva possible propensió a produir sentiments d'ansietat, por i altres efectes negatius en els nens. Els investigadors assenyalen que com que aquest sistema de classificació implica tanta intuïció i instint com la ciència, els paràmetres per a la definició de "contingut nociu" són difícils de quantificar i inculcar en un sistema automatitzat.

Definició de dany

L'article observa a més que els sistemes algorísmics i d'aprenentatge automàtic anteriors que abordaven aquest repte han utilitzat com a criteri la detecció de facetes específiques, inclosa la detecció visual de sang i flames, el so de l'esclat i la freqüència de la longitud del tret, entre altres definicions restringides de nociu. contingut i que un enfocament multidomini sembla que ofereix una millor metodologia per a la classificació automàtica del contingut nociu.

Els investigadors suecs van entrenar un model de xarxa neuronal de 8 capes de 8 × 50 sobre el punt de referència del moviment humà Kinetics-400 conjunt de dades, i va crear una arquitectura dissenyada per fusionar prediccions de vídeo i àudio.

En efecte, l'ús de tràilers resol tres problemes per a la creació d'un conjunt de dades d'aquestes característiques: evita problemes de copyright; l'augment de la turbulència i la freqüència de trets més alta dels tràilers (en comparació amb les pel·lícules originals), permeten una major freqüència d'anotació; i assegura que la baixa incidència de contingut violent o pertorbador en una pel·lícula sencera no desequilibra el conjunt de dades i el classifica accidentalment com a adequat per a nens.

Resultats

Un cop entrenat el model, els investigadors suecs van provar el sistema contra clips de vídeo.

En aquest tràiler de The Deep (2012), els dos models utilitzats per provar el sistema (etiquetes mostrejades aleatòriament versus etiquetes probabilístiques) van classificar amb èxit la pel·lícula com a adequada per a espectadors d'11 anys o més.

Font: https://arxiv.org/pdf/2106.08323.pdf

Font: https://arxiv.org/pdf/2106.08323.pdf

Per una escena de Descarnar (2018) on s'introdueix un antagonista monstruós, el marc dual va tornar a estimar correctament el rang d'edat objectiu com a 11+/15+.

No obstant això, un clip del tràiler de Una segona oportunitat (2014) presentaven una dificultat més gran, ja que el model no podia estar d'acord amb les anotacions humanes de l'escena, que l'havien classificat com a 'BT' (universalment acceptable). En efecte, l'algoritme ha detectat un potencial de dany que els avaluadors humans no li han atribuït.

Tot i que els investigadors atestiguen una puntuació de precisió alta per al sistema, es van produir alguns errors, com aquest clip de Estat de la Ciutat (2011), que presenta un home nu detingut amenaçat amb un rifle.

En aquest cas, el sistema ha assignat una puntuació superior a 11 al clip, en contrast amb les anotacions humanes.

Dissonància d'intenció i nocivitat

El document assenyala que en avaluar un clip del tràiler de Paydirt (2020), el sistema assigna correctament una qualificació "universal" al clip en funció dels aspectes visuals i lingüístics (tot i que els personatges parlen d'armes de foc, la intenció és còmica), però es confon amb la música dissonantment amenaçadora utilitzada, que pot tenir un context satíric.

Igualment en un tràiler de la pel·lícula Per Sama (2019), l'estil amenaçador del contingut musical no coincideix amb el contingut visual i, una vegada més, el sistema té dificultats per desenredar els dos components per fer un judici uniforme que cobreixi tant el contingut d'àudio com de vídeo del clip.

Finalment, el sistema navega correctament per la dissonància d'àudio/vídeo en un clip de tràiler Muntanya Verge (2015), que conté alguns indicis visuals amenaçadors (és a dir, una finestra trencada) que es veuen soscavats per la música. Així, el marc endevina correctament que el clip està classificat com a "universal" (BT).

Els investigadors admeten que un sistema d'aquesta naturalesa es centra exclusivament en els nens, amb els resultats poc probable que es generalitzin bé a altres tipus d'espectadors. També suggereixen que la codificació de contingut "perjudicial" d'aquesta manera lineal podria conduir a sistemes de classificació algorítmics que siguin menys impredictibles, però observen el potencial de repressió no desitjada de les idees en el desenvolupament d'aquests enfocaments:

"Avaluar si el contingut és nociu és un tema delicat. Hi ha un important equilibri entre la llibertat d'informació i la protecció de grups sensibles. Creiem que aquest treball fa un pas en la direcció correcta, en ser el més transparent possible sobre els criteris que s'utilitzen per avaluar la nocivitat. A més, creiem que separar la nocivitat de la conveniència és un pas important per fer que la classificació del contingut nociu sigui més objectiva.

'...Detectar contingut nociu també és d'interès per a plataformes en línia com YouTube. En aquestes plataformes, l'acte d'equilibri entre la llibertat d'informació i la protecció es fa encara més important i es complica encara més per la naturalesa propietaria dels algorismes responsables".