Connect with us

Inteligência artificial

OpenAI Cria Novo Programa de IA Para Criar Música Com Base em Gêneros

mm

A organização de pesquisa independente OpenAI lançou recentemente uma nova forma de IA geradora chamada Jukebox, nomeada assim devido à sua capacidade de gerar música. O Jukebox AI é capaz de gerar sons com base em atributos como instrumentação e até letras, e a equipe de pesquisa da OpenAI criou o AI treinando-o com cliques de áudio comprimidos e vários trechos de letras.

Como o TechCrunch relatou, os pesquisadores da OpenAI treinaram o modelo usando cliques de áudio brutos, dando ao modelo a capacidade de produzir áudio. Isso é em contraste com as abordagens usadas para criar outras aplicações de geração de música, que muitas vezes dependem de “música simbólica” (como música MIDI) que é informação sobre notas e pitches, mas não áudio real. A equipe de pesquisadores utilizou redes neurais convolucionais para treinar o modelo, comprimindo o áudio e codificando-o em um formato que a rede neural pudesse interpretar. Posteriormente, um transformador foi usado para gerar áudio comprimido, que foi interpolado para converter os dados em um formato de áudio.

Ao criar o Jukebox, a OpenAI teve que criar um método para lidar com a natureza complexa e densa do áudio. Os pesquisadores lidaram com a natureza contínua do áudio quebrando-o em seções mais discretas e digeríveis, dividindo as músicas em pedaços que são 1/128 de segundo de duração. O objetivo era criar um modelo de IA capaz de quebrar as músicas em pedaços grandes o suficiente para que o problema não se torne intractável, mas pequenos e precisos o suficiente para que os modelos possam aprender o padrão de uma música e reconstruir esse padrão.

A técnica utilizada pela OpenAI compartilha algumas semelhanças com um AI de geração de música mais antigo produzido pela empresa, chamado MuseNet. O MuseNet foi treinado em arquivos MIDI e era capaz de gerar música em uma variedade de estilos, embora se concentrasse na melodia geral de uma música e não pudesse produzir letras. Em contraste, o Jukebox é capaz de escrever suas próprias letras para acompanhar a música. As letras são “co-escritas” pelos pesquisadores da OpenAI, orientando o modelo para criar letras em certos estilos. O sistema Jukebox foi treinado em letras raspadas do LyricWiki, com os dados de treinamento consistindo em texto e metadados de 1,2 milhão de músicas.

Quando se trata das letras do modelo, os pesquisadores primeiro tentaram usar um heurístico simples que esticava as letras para aproximadamente a duração de uma música, analisando o texto que correspondia a um determinado pedaço/segmento da música. Essa abordagem simples funcionou bem em geral, embora os pesquisadores tenham descoberto que, quando as letras eram particularmente rápidas, elas quebravam. Para lidar com esse problema, as vocais foram extraídas da música e alinhadas com o texto das letras para obter alinhamentos de nível de palavra para as letras. Posteriormente, uma camada de codificação foi usada para as letras, juntamente com uma camada de atenção que mapeava seções da música para letras usando pares de chave-valor. O resultado foi que as letras e as vocais tinham uma correspondência bastante precisa.

Os autores do artigo também observam que existem várias limitações que o Jukebox tem, e que o trabalho futuro visará melhorar a capacidade do AI. Como os autores escrevem em um post de blog:

“Embora o Jukebox represente um passo à frente em termos de qualidade musical, coerência, comprimento da amostra de áudio e capacidade de condicionar em artista, gênero e letras, há uma lacuna significativa entre essas gerações e a música criada por humanos. Por exemplo, embora as músicas geradas mostrem coerência musical local, sigam padrões de acordes tradicionais e possam até apresentar solos impressionantes, não ouvimos estruturas musicais familiares maiores, como refrões que se repetem.”

Atualmente, o modelo é capaz de produzir uma música que é reconhecivelmente no estilo de um gênero específico ou até de um artista específico. Por exemplo, ele pode produzir músicas no estilo de Elvis Presley, Katy Perry ou Rage Against the Machine. Embora as músicas sejam reconhecivelmente dentro de um gênero ou temáticas em torno do estilo de um cantor, elas também são bastante grosseiras, muitas vezes soando como uma paródia ou uma versão de baixa qualidade de uma música. No entanto, o feito técnico é impressionante. Os pesquisadores responsáveis por criar o sistema de geração de IA escolheram trabalhar em um programa capaz de gerar música especificamente porque a tarefa era difícil, e os pesquisadores planejam continuar a aprimorar suas técnicas. Você pode ouvir algumas das músicas aqui.

Blogueiro e programador com especialidades em Machine Learning e Deep Learning tópicos. Daniel espera ajudar os outros a usar o poder da IA para o bem social.