toco OpenAI cria novo programa de IA para criar música baseada em gêneros - Unite.AI
Entre em contato

Inteligência artificial

OpenAI cria novo programa de IA para criar música baseada em gêneros

mm
Atualização do on

A organização de pesquisa independente OpenAI lançou recentemente uma nova forma de IA generativa apelidada de juke-box, assim denominado devido à sua capacidade de gerar música. O Jukebox AI é capaz de gerar sons com base em atributos como instrumentação e até letras, e a equipe de pesquisa do OpenAI criou o AI treinando-o em clipes de áudio compactados e vários trechos de letras.

Como TechCrunch relatado, os pesquisadores da OpenAI treinaram o modelo usando clipes de áudio brutos, dando ao modelo a capacidade de produzir áudio. Isso contrasta com as abordagens usadas para criar outros aplicativos de geração de música, que geralmente dependem de “música simbólica” (como música MIDI), que contém informações sobre notas e tons, mas sem áudio real. A equipe de pesquisadores utilizou redes neurais convolucionais para treinar o modelo, comprimindo o áudio e codificando-o em um formato que a rede neural pudesse interpretar. Em seguida, um transformador foi utilizado para gerar o áudio compactado, que foi submetido a um upsampling para converter os dados em um formato de áudio.

Ao criar o Jukebox, a OpenAI teve que criar um método para lidar com a natureza complexa e densa do áudio. Os pesquisadores lidaram com a natureza contínua do áudio, dividindo-o em seções mais discretas e digeríveis, dividindo as músicas em bits com duração de 1/128 de segundo. O objetivo era criar um modelo de IA capaz de dividir as músicas em pedaços grandes o suficiente para que o problema não se tornasse intratável, mas pequeno e preciso o suficiente para que os modelos pudessem aprender o padrão de uma música e reconstruir esse padrão.

A técnica utilizada pela OpenAI compartilha alguns pontos em comum com uma IA de geração musical mais antiga produzida pela empresa, chamada MuseNet. O MuseNet foi treinado em arquivos MIDI e era capaz de gerar música em uma variedade de estilos, embora se concentrasse na melodia geral de uma música e não pudesse produzir letras. Em contraste, o Jukebox é capaz de escrever suas próprias letras para acompanhar a música. As letras são “co-escritas” pelos pesquisadores da OpenAI, orientando o modelo para a criação de letras em determinados estilos. O sistema Jukebox foi treinado com letras extraídas do LyricWiki, com os dados de treinamento consistindo em texto e metadados em 1.2 milhão de músicas.

Quando se trata das letras do modelo, os pesquisadores primeiro tentaram usar uma heurística simples que estendeu as letras aproximadamente pela duração de uma música, analisando o texto que correspondia a um pedaço/segmento específico da música. Essa abordagem simples funcionou bem em geral, embora os pesquisadores tenham descoberto que, quando as letras eram particularmente rápidas, ela falhava. Para lidar com esse problema, os vocais foram extraídos da música e alinhados com o texto lírico para obter alinhamentos em nível de palavra para as letras. Posteriormente, uma camada de codificação foi usada para as letras junto com uma camada de atenção que mapeou as seções da música para as letras usando pares chave-valor. O resultado foi que as letras e os vocais tiveram uma correspondência bastante precisa.

Os autores o papel observe também que existem várias limitações que o Jukebox possui e que o trabalho futuro terá como objetivo melhorar a capacidade do AI. Como os autores escrevem em um post de blog:

“Embora o Jukebox represente um avanço na qualidade musical, coerência, duração da amostra de áudio e capacidade de condicionar o artista, o gênero e as letras, há uma lacuna significativa entre essas gerações e a música criada pelo homem. Por exemplo, embora as músicas geradas mostrem coerência musical local, sigam padrões de acordes tradicionais e possam até apresentar solos impressionantes, não ouvimos estruturas musicais familiares maiores, como refrões que se repetem.”

No momento, o modelo é capaz de produzir uma música que seja reconhecidamente no estilo de um gênero específico ou mesmo de um artista específico. Por exemplo, pode produzir canções no estilo de Elvis Presley, Katy Perry ou Rage Against the Machine. Embora as canções sejam reconhecidamente dentro de um gênero ou tematizadas em torno do estilo de um cantor, elas também são bastante rudes, muitas vezes soando como uma paródia ou uma versão cover pobre de uma música. No entanto, a conquista técnica é impressionante. Os pesquisadores responsáveis ​​pela criação do sistema de geração de IA optaram por trabalhar em um programa capaz de gerar música justamente porque a tarefa era difícil, e os pesquisadores pretendem continuar aprimorando suas técnicas. Você pode ouvir algumas das músicas SUA PARTICIPAÇÃO FAZ A DIFERENÇA.

Blogueiro e programador com especialidades em Machine Learning e Aprendizagem profunda tópicos. Daniel espera ajudar outras pessoas a usar o poder da IA ​​para o bem social.