Inteligência artificial

Pesquisadores de IA Projetam Programa Para Gerar Efeitos Sonoros Para Filmes e Outros Meios de Comunicação

mm

Pesquisadores da Universidade do Texas em San Antonio criaram um aplicativo baseado em IA capaz de observar as ações que ocorrem em um vídeo e criar efeitos sonoros artificiais para combinar com essas ações. Os efeitos sonoros gerados pelo programa são tão realistas que, quando observadores humanos foram consultados, eles geralmente pensaram que os efeitos sonoros eram legítimos.

O programa responsável por gerar os efeitos sonoros, AudioFoley, foi detalhado em um estudo publicado recentemente na IEEE Transactions on Multimedia. De acordo com a IEEE Spectrum, o programa de IA foi desenvolvido por Jeff Provost, professor da UT San Antonio, e a estudante de doutorado Sanchita Ghose. Os pesquisadores criaram o programa utilizando vários modelos de aprendizado de máquina juntos.

A primeira tarefa para gerar efeitos sonoros apropriados para as ações na tela foi reconhecer essas ações e mapeá-las para efeitos sonoros. Para isso, os pesquisadores projetaram dois modelos de aprendizado de máquina diferentes e testaram suas abordagens diferentes. O primeiro modelo opera extrair quadros dos vídeos que ele é alimentado e analisar esses quadros para recursos relevantes como movimentos e cores. Em seguida, um segundo modelo foi empregado para analisar como a posição de um objeto muda ao longo dos quadros, para extrair informações temporais. Essas informações temporais são usadas para antecipar as próximas ações prováveis no vídeo. Os dois modelos têm métodos diferentes de analisar as ações no clipe, mas ambos usam as informações contidas no clipe para adivinhar qual som melhor acompanharia.

A próxima tarefa é sintetizar o som, e isso é realizado combinando atividades/movimentos previstos com possíveis amostras de som. De acordo com Ghose e Prevost, AutoFoley foi usado para gerar som para 1000 clipes curtos, apresentando ações e itens como um incêndio, um cavalo correndo, relógios tiquetaqueando e chuva caindo em plantas. Embora AutoFoley tenha sido mais bem-sucedido em criar som para clipes onde não precisava haver uma correspondência perfeita entre as ações e os sons, e teve dificuldade em combinar clipes onde as ações ocorriam com mais variação, o programa ainda foi capaz de enganar muitos observadores humanos para escolher seus sons gerados sobre o som que originalmente acompanhava um clipe.

Prevost e Ghose recrutaram 57 estudantes universitários e os fizeram assistir a clipes diferentes. Alguns clipes continham o áudio original, alguns continham áudio gerado por AutoFoley. Quando o primeiro modelo foi testado, aproximadamente 73% dos estudantes selecionaram o áudio sintetizado como o áudio original, negligenciando o som real que acompanhava o clipe. O outro modelo apresentou um desempenho ligeiramente pior, com apenas 66% dos participantes selecionando o áudio gerado sobre o áudio original.

Prevost explicou que AutoFoley pode ser potencialmente usado para acelerar o processo de produção de filmes, televisão e outros meios de comunicação. Prevost observa que uma trilha de Foley realista é importante para tornar a mídia atraente e convincente, mas que o processo de Foley frequentemente leva um tempo significativo para ser concluído. Ter um sistema automatizado que possa lidar com a criação de elementos básicos de Foley pode tornar a produção de mídia mais barata e rápida.

Atualmente, AutoFoley tem algumas limitações notáveis. Por um lado, embora o modelo pareça se sair bem ao observar eventos que têm movimentos estáveis e previsíveis, ele sofre ao tentar gerar áudio para eventos com variação no tempo (como tempestades). Além disso, também exige que o assunto de classificação esteja presente em todo o clipe e não saia do quadro. A equipe de pesquisa está visando abordar essas questões com versões futuras do aplicativo.

Blogueiro e programador com especialidades em Machine Learning e Deep Learning tópicos. Daniel espera ajudar os outros a usar o poder da IA para o bem social.