Inteligência artificial
Pesquisadores Criam Modelo de IA Capaz de Cantar em Chinês e Inglês

Uma equipe de pesquisadores da Microsoft e da Zhajiang University criou recentemente um modelo de IA capaz de cantar em numerous idiomas. Como o VentureBeat relatou, o DeepSinger AI desenvolvido pela equipe foi treinado em dados de vários sites de música, usando algoritmos que capturaram a timbre da voz do cantor.
Gerar a “voz” de um cantor de IA requer algoritmos capazes de prever e controlar tanto o tom quanto a duração do áudio. Quando as pessoas cantam, os ruídos que elas produzem têm ritmos e padrões muito mais complexos em comparação com a fala simples. Outro problema para a equipe superar foi que, embora haja uma quantidade justa de dados de treinamento de fala/discurso disponíveis, os conjuntos de dados de treinamento de canto são bastante raros. Combine esses desafios com o fato de que as canções precisam ter tanto som quanto letras analisadas, e o problema de gerar canto é incrivelmente complexo.
O sistema DeepSinger criado pelos pesquisadores superou esses desafios desenvolvendo um pipeline de dados que minerou e transformou dados de áudio. Os trechos de canto foram extraídos de vários sites de música, e então o canto foi isolado do restante do áudio e dividido em frases. A próxima etapa foi determinar a duração de cada fonema nas letras, resultando em uma série de amostras, cada uma representando um fonema único nas letras. A limpeza dos dados é feita para lidar com quaisquer amostras de treinamento distorcidas após as letras e as amostras de áudio acompanhantes serem classificadas de acordo com a pontuação de confiança.
Os mesmos métodos parecem funcionar para uma variedade de idiomas. O DeepSinger foi treinado em amostras vocais chinesas, cantonesas e inglesas compostas por 89 cantores diferentes cantando por mais de 92 horas. Os resultados do estudo encontraram que o sistema DeepSinger foi capaz de gerar amostras de “canto” de alta qualidade de acordo com métricas como a precisão do tom e o quão natural o canto soava. Os pesquisadores tiveram 20 pessoas avaliarem tanto as canções geradas pelo DeepSinger quanto as canções de treinamento de acordo com essas métricas, e a lacuna entre as pontuações para as amostras geradas e o áudio genuíno foi bastante pequena. Os participantes deram ao DeepSinger uma pontuação de opinião média que variou entre 0,34 e 0,76.
Olhando para o futuro, os pesquisadores querem tentar melhorar a qualidade das vozes geradas, treinando conjuntamente os vários submodelos que compõem o DeepSinger, com a ajuda de tecnologias especializadas como o WaveNet, projetadas especificamente para a tarefa de gerar fala natural soando através de formas de onda de áudio.
O sistema DeepSinger pode ser usado para ajudar cantores e outros artistas musicais a fazer correções em seu trabalho sem precisar retornar ao estúdio para outra sessão de gravação. Ele também pode ser potencialmente usado para criar áudio deepfakes, fazendo com que pareça que um artista cantou uma canção que ele nunca realmente fez. Embora possa ser usado para paródia ou sátira, também é de duvidosa legalidade.
O DeepSinger é apenas um de uma onda de novos sistemas de música e áudio baseados em IA que podem transformar a forma como a música e o software interagem. A OpenAI recentemente lançou seu próprio sistema de IA, chamado JukeBox, que é capaz de produzir faixas de música originais no estilo de um determinado gênero ou até mesmo de um artista específico. Outras ferramentas musicais de IA incluem Google’s Magenta e Amazon’s DeepComposer. O Magenta é uma biblioteca de manipulação de áudio (e imagem) de código aberto que pode ser usada para produzir tudo, desde backing de bateria automatizado até jogos de vídeo simples baseados em música. Enquanto isso, o DeepComposer da Amazon é direcionado àqueles que desejam treinar e personalizar seus próprios modelos de aprendizado de máquina baseados em música, permitindo que o usuário pegue modelos de amostra pré-treinados e ajuste os modelos às suas necessidades.
Você pode ouvir algumas das amostras de áudio geradas pelo DeepSinger neste link.












