talón Identificación de contenido de video dañino con avances de películas y aprendizaje automático - Unite.AI
Contáctanos

Inteligencia artificial

Identificación de contenido de video dañino con avances de películas y aprendizaje automático

mm
Actualizado on

Un artículo de investigación del Consejo Sueco de Medios describe un posible nuevo enfoque para la identificación automática de "contenido dañino", considerando el contenido de audio y video por separado, y utilizando datos anotados por humanos como un índice guía para el material que puede molestar a los espectadores.

Bajo el título ¿Es esto dañino? Aprendiendo a predecir calificaciones de nocividad a partir de videos, la ilustra la necesidad de que los sistemas de aprendizaje automático tengan en cuenta todo el contexto de una escena, e ilustra las muchas formas en que el contenido inocuo (como el contenido humorístico o satírico) podría malinterpretarse como dañino en un enfoque menos sofisticado y multimodal del análisis de vídeo. sobre todo porque la banda sonora musical de una película se utiliza a menudo de maneras inesperadas, ya sea para inquietar o tranquilizar al espectador, y como contrapunto más que como complemento del componente visual.

Un conjunto de datos de videos potencialmente dañinos

Los investigadores señalan que los desarrollos útiles en este sector se han visto obstaculizados por la protección de los derechos de autor de las películas, lo que hace que la creación de conjuntos de datos de código abierto generalizados sea problemática. También observan que, hasta la fecha, experimentos similares han sufrido una escasez de etiquetas para películas de larga duración, lo que ha llevado a que el trabajo anterior simplifique en exceso los datos contribuyentes, o que introduzca solo un aspecto de los datos, como los colores dominantes o el diálogo. análisis.

Para abordar esto, los investigadores compilaron un conjunto de datos de video de 4000 clips de video, tráileres cortados en fragmentos de alrededor de diez segundos de duración, que luego fueron etiquetados por clasificadores de películas profesionales que supervisan la aplicación de calificaciones para nuevas películas en Suecia, muchas con cualificación profesional en psicología infantil.

Según el sistema sueco de clasificación de películas, el contenido 'dañino' se define en función de su posible propensión a producir sentimientos de ansiedad, miedo y otros efectos negativos en los niños. Los investigadores señalan que dado que este sistema de clasificación involucra tanto la intuición y el instinto como la ciencia, los parámetros para la definición de "contenido dañino" son difíciles de cuantificar e inculcar en un sistema automatizado.

Definición de daño

El documento observa además que los sistemas algorítmicos y de aprendizaje automático anteriores que abordan este desafío han utilizado la detección de facetas específicas como criterio, incluida la detección visual de sangre y llamas, el sonido del estallido y la frecuencia de la longitud del disparo, entre otras definiciones restringidas de daños. contenido, y que un enfoque multidominio parece ofrecer una mejor metodología para la calificación automática de contenido dañino.

Los investigadores suecos entrenaron un modelo de red neuronal de 8 capas de 8 × 50 en el punto de referencia de movimiento humano Kinetics-400 datosy creó una arquitectura diseñada para fusionar predicciones de video y audio.

En efecto, el uso de trailers resuelve tres problemas para la creación de un conjunto de datos de esta naturaleza: obvia los problemas de derechos de autor; la mayor turbulencia y la mayor frecuencia de tomas de los tráileres (en comparación con las películas originales) permite una mayor frecuencia de anotaciones; y garantiza que la baja incidencia de contenido violento o perturbador en una película completa no desequilibre el conjunto de datos y lo clasifique accidentalmente como apto para niños.

Resultados

Una vez que se entrenó el modelo, los investigadores suecos probaron el sistema contra videoclips.

En este tráiler de The Deep (2012), los dos modelos utilizados para probar el sistema (etiquetas de muestras aleatorias frente a etiquetas probabilísticas) clasificaron con éxito la película como apta para espectadores de 11 años o más.

Fuente: https://arxiv.org/pdf/2106.08323.pdf

Fuente: https://arxiv.org/pdf/2106.08323.pdf

Para una escena de desencarnar (2018) donde se introduce un antagonista monstruoso, el marco dual nuevamente estimó correctamente el rango de edad objetivo como 11+/15+.

Sin embargo, un clip del tráiler de Una segunda oportunidad (2014) presentó mayor dificultad, ya que el modelo no pudo concordar con las anotaciones humanas para la escena, que la habían clasificado como 'BT' (universalmente aceptable). En efecto, el algoritmo ha detectado un potencial de daño que los evaluadores humanos no le han atribuido.

Aunque los investigadores dan fe de un puntaje de alta precisión para el sistema, ocurrieron algunas fallas, como este clip de Estado de la Ciudad (2011), que presenta a un hombre desnudo detenido amenazado con un rifle.

En este caso, el sistema ha asignado una calificación de 11+ al clip, en contraste con las anotaciones humanas.

Disonancia de intención y nocividad

El periódico señala que al evaluar un clip del tráiler de Paydirt (2020), el sistema asigna correctamente una calificación 'universal' al clip en función de los aspectos visuales y lingüísticos (aunque los personajes están discutiendo sobre armas de fuego, la intención es cómica), pero se confunde con la música disonantemente amenazante utilizada, que puede tener un contexto satírico.

Así mismo en un tráiler de la película. For Sama (2019), el estilo amenazante del contenido musical no se corresponde con el contenido visual y, una vez más, el sistema experimenta dificultades para desentrañar los dos componentes para hacer un juicio uniforme que abarque tanto el contenido de audio como el de video del clip.

Finalmente, el sistema navega correctamente por la disonancia de audio/video en un clip de tráiler para montaña virgen (2015), que contiene algunas señales visuales amenazantes (es decir, una ventana rota) que son socavadas por la música. Por lo tanto, el marco adivina correctamente que el clip está clasificado como 'universal' (BT).

Los investigadores admiten que un sistema de esta naturaleza se centra exclusivamente en los niños, y es poco probable que los resultados se generalicen bien a otros tipos de espectadores. También sugieren que la codificación de contenido "dañino" de esta manera lineal podría conducir potencialmente a sistemas de calificación algorítmica que son menos impredecibles, pero tenga en cuenta el potencial de represión no deseada de ideas en el desarrollo de tales enfoques:

'Evaluar si el contenido es dañino es un tema delicado. Existe un acto de equilibrio importante entre la libertad de información y la protección de grupos sensibles. Creemos que este trabajo da un paso en la dirección correcta, siendo lo más transparente posible sobre los criterios que se utilizan para evaluar la nocividad. Además, creemos que separar la nocividad de la adecuación es un paso importante para que la clasificación del contenido nocivo sea más objetiva.

'... La detección de contenido dañino también es de interés para las plataformas en línea como YouTube. En tales plataformas, el acto de equilibrio entre la libertad de información y la protección se vuelve aún más importante y se complica aún más por la naturaleza propietaria de los algoritmos responsables”.