Connect with us

Inteligencia artificial

Identificando Contenido de Video Dañino con Avances de Películas y Aprendizaje Automático

mm

Un artículo de investigación del Consejo de Medios de Comunicación de Suecia describe un posible nuevo enfoque para la identificación automática de ‘contenido dañino’, considerando el contenido de audio y video por separado, y utilizando datos anotados por humanos como un índice de orientación para material que puede molestar a los espectadores.

Entitled ¿Es esto dañino? Aprendiendo a predecir calificaciones de dañino desde el video, el artículo ilustra la necesidad de que los sistemas de aprendizaje automático tengan en cuenta el contexto completo de una escena, y ilustra las muchas formas en que el contenido inofensivo (como el contenido humorístico o satírico) podría ser malinterpretado como dañino en un enfoque menos sofisticado y multimodal para el análisis de video – no menos porque la banda sonora musical de una película a menudo se utiliza de maneras inesperadas, ya sea para inquietar o tranquilizar al espectador, y como un contrapunto en lugar de un complemento del componente visual.

Un conjunto de datos de videos potencialmente dañinos

Los investigadores señalan que los desarrollos útiles en este sector han sido obstaculizados por la protección de derechos de autor de las películas, lo que hace que la creación de conjuntos de datos de código abierto generalizados sea problemática. También observan que, hasta la fecha, experimentos similares han sufrido de una escasez de etiquetas para películas de larga duración, lo que ha llevado a que el trabajo anterior simplifique los datos contribuyentes, o se centre en un solo aspecto de los datos, como los colores dominantes o el análisis del diálogo.

Para abordar esto, los investigadores han compilado un conjunto de datos de video de 4000 clips de video, avances de películas recortados en trozos de alrededor de diez segundos de duración, que luego fueron etiquetados por clasificadores de películas profesionales que supervisan la aplicación de calificaciones para nuevas películas en Suecia, muchos con calificaciones profesionales en psicología infantil.

Bajo el sistema de clasificación de películas de Suecia, el ‘contenido dañino’ se define en función de su posible propensión a producir sentimientos de ansiedad, miedo y otros efectos negativos en los niños. Los investigadores señalan que, dado que este sistema de calificación implica tanto intuición como ciencia, los parámetros para la definición de ‘contenido dañino’ son difíciles de cuantificar e instalar en un sistema automatizado.

Definir daño

El artículo también observa que los sistemas de aprendizaje automático y algorítmicos anteriores que abordan este desafío han utilizado la detección de facetas específicas como criterio, incluyendo la detección visual de sangre y llamas, el sonido de explosiones y la frecuencia de la longitud de la toma, entre otras definiciones restringidas de contenido dañino, y que un enfoque multi-dominio parece ofrecer una mejor metodología para la calificación automática de contenido dañino.

Los investigadores suecos entrenaron un modelo de red neuronal de 8×8 y 50 capas en el benchmark de movimiento humano Kinetics-400 dataset, y crearon una arquitectura diseñada para fusionar predicciones de video y audio.

En efecto, el uso de avances de películas resuelve tres problemas para la creación de un conjunto de datos de esta naturaleza: evita los problemas de derechos de autor; la mayor turbulencia y la frecuencia de toma más alta de los avances (en comparación con las películas originales) permiten una mayor frecuencia de anotación; y garantiza que la baja incidencia de contenido violento o perturbador en una película completa no desequilibre el conjunto de datos y lo clasifique accidentalmente como adecuado para niños.

Resultados

Una vez que el modelo se entrenó, los investigadores suecos probaron el sistema contra clips de video.

En este avance de El Abismo (2012), los dos modelos utilizados para probar el sistema (etiquetas aleatorias vs. etiquetas probabilísticas) clasificaron con éxito la película como adecuada para espectadores de 11 años o más.

https://www.youtube.com/watch?v=8LQAPED-7zA

Fuente: https://arxiv.org/pdf/2106.08323.pdf

Fuente: https://arxiv.org/pdf/2106.08323.pdf

Para una escena de Discarnate (2018) donde se introduce un antagonista monstruoso, el marco dual estimó correctamente el rango de edad objetivo como 11+/15+.

https://www.youtube.com/watch?v=GrMXRRxrGeI

Sin embargo, un clip del avance de Una segunda oportunidad (2014) presentó una mayor dificultad, ya que el modelo no pudo ponerse de acuerdo con las anotaciones humanas para la escena, que había clasificado como ‘BT’ (universalmente aceptable). En efecto, el algoritmo ha detectado un posible daño que los evaluadores humanos no han asignado a él.

https://www.youtube.com/watch?v=4-sAYL67y3M

Aunque los investigadores afirman una alta puntuación de precisión para el sistema, se produjeron algunos fallos, como este clip del avance de Estado de ciudad (2011), que presenta a un hombre desnudo detenido y amenazado con un rifle.

https://www.youtube.com/watch?v=FwavMLSOtv4

En este caso, el sistema ha asignado una calificación de 11+ al clip, en contraste con las anotaciones humanas.

Disonancia de intención y dañino

El artículo señala que al evaluar un clip del avance de Pago de tierra (2020), el sistema asigna correctamente una calificación ‘universal’ al clip basado en los aspectos visuales y lingüísticos (aunque los personajes están discutiendo armas de fuego, la intención es cómica), pero se confunde por la música amenazante utilizada de manera disonante, que puede tener un contexto satírico.

https://www.youtube.com/watch?v=UQki0nl-ukc

De manera similar, en un avance de la película Para Sama (2019), el estilo musical amenazante no se corresponde con el contenido visual, y una vez más, el sistema experimenta dificultades para desentrañar los dos componentes para hacer un juicio uniforme que cubra tanto el contenido de audio como de video del clip.

https://www.youtube.com/watch?v=_ZR13_U4VPA

Finalmente, el sistema navega correctamente la disonancia audio/video en un clip del avance de Montaña virgen (2015), que contiene algunas pistas visuales amenazantes (es decir, una ventana rota) que son socavadas por la música. Así, el marco correctamente adivina que el clip está calificado como ‘universal’ (BT).

https://www.youtube.com/watch?v=GdhYe4E5iWY

Los investigadores conceden que un sistema de esta naturaleza se centra exclusivamente en los niños, con los resultados poco probablemente generalizados a otros tipos de espectadores. También sugieren que codificar el ‘contenido dañino’ de esta manera lineal podría potencialmente llevar a sistemas de calificación algorítmicos que sean menos impredecibles, pero señalan el potencial de represión no deseada de ideas en el desarrollo de tales enfoques:

‘Evaluar si el contenido es dañino es un asunto delicado. Existe un importante equilibrio entre la libertad de información y la protección de grupos sensibles. Creemos que este trabajo da un paso en la dirección correcta, al ser lo más transparente posible sobre los criterios utilizados para evaluar el daño. Además, creemos que separar el daño de la idoneidad es un paso importante hacia hacer que la clasificación de contenido dañino sea más objetiva.

‘… Detectar contenido dañino también es de interés para plataformas en línea como YouTube. En dichas plataformas, el equilibrio entre la libertad de información y la protección se vuelve aún más importante y se complica aún más por la naturaleza propietaria de los algoritmos responsables.’

 

Escritor sobre aprendizaje automático, especialista en síntesis de imágenes humanas. Anterior jefe de contenido de investigación en Metaphysic.ai.