Inteligência artificial

Pesquisadores Descobrem Subredes Altamente Eficientes Dentro de Redes Neurais de Aprendizado Profundo

mm

Redes neurais de aprendizado profundo geralmente são massivas e requerem enormes quantidades de poder de processamento, mas uma nova descoberta demonstra como isso pode ser reduzido para completar tarefas de forma mais eficiente. Jonathan Frankle e sua equipe do MIT desenvolveram a “hipótese do bilhete de loteria”, que mostra como existem subredes mais leves dentro das redes neurais maiores. Essas subredes podem completar a tarefa em questão de forma mais eficiente com menos poder de processamento necessário, com um dos principais desafios sendo encontrar essas subredes, ou bilhetes de loteria vencedores, como a equipe se refere a elas.

A equipe descobriu essas subredes dentro do BERT, a técnica de aprendizado de máquina de ponta para processamento de linguagem natural (NLP). NLP, que é um subcampo da inteligência artificial (IA), é responsável por decifrar e analisar a linguagem humana e é usada em aplicações como geração de texto preditivo e chatbots.

No entanto, o BERT é grande e requer poder de processamento de supercomputador, que é inacessível à maioria dos usuários. Com a nova descoberta dessas subredes, isso pode abrir caminho para que mais usuários possam utilizar a tecnologia para desenvolver ferramentas de NLP.

“Estamos chegando ao ponto em que teremos que tornar esses modelos mais leves e eficientes”, diz Frankle.

De acordo com ele, esse desenvolvimento pode “reduzir as barreiras de entrada” para NLP.

BERT – “Obscenamente Caro”  

O BERT é fundamental para coisas como o mecanismo de busca do Google e recebeu muita atenção desde que o Google o lançou em 2018. É um método para criar redes neurais e é treinado tentando muitas vezes preencher passagens de texto em branco. Uma das características mais impressionantes do BERT é seu conjunto de dados de treinamento inicial massive.

Ele pode ser ajustado pelos usuários para tarefas específicas, como chatbots de atendimento ao cliente, mas novamente, requer enormes quantidades de poder de processamento, com a possibilidade de parâmetros atingir 1 bilhão.

“Um modelo BERT padrão desses dias – o tipo comum – tem 340 milhões de parâmetros”, diz Frankle. “Isso é simplesmente obsceno. Isso está muito além da capacidade de processamento de você ou eu.”

De acordo com o autor principal Tianlong Chen, da Universidade do Texas em Austin, modelos como o BERT “sofrem com o tamanho da rede enorme”, mas graças à nova pesquisa, “a hipótese do bilhete de loteria parece ser uma solução”.

Subredes Eficientes 

Chen e a equipe procuraram um modelo menor localizado dentro do BERT e compararam o desempenho das subredes descobertas com o modelo BERT original. Isso foi testado em uma variedade de tarefas de NLP diferentes, incluindo responder perguntas e preencher palavras em branco em uma sentença.

A equipe descobriu subredes bem-sucedidas que eram impressionantes 40 a 90 por cento mais leves do que o modelo BERT original, com o percentual real dependendo da tarefa. Além disso, eles puderam identificá-las antes do ajuste fino específico da tarefa, o que resulta em custos de processamento ainda mais reduzidos. Outra vantagem foi que algumas das subredes selecionadas para uma tarefa específica puderam ser reutilizadas para outra.

“Eu fiquei um pouco chocado que isso funcionou”, diz Frankle. “Não é algo que eu considerei como garantido. Eu estava esperando um resultado muito mais confuso do que o que obtivemos.”

De acordo com Ari Morcos, cientista da Facebook AI Research, essa descoberta é “convincente” e “Esses modelos estão se tornando cada vez mais comuns. Então, é importante entender se a hipótese do bilhete de loteria se mantém.”

Morcos também diz que, se essas subredes puderem ser executadas usando muito menos poder de processamento, isso “seria muito impactante, considerando que esses modelos extremamente grandes são atualmente muito caros para serem executados.”

“Eu não sei quanto maior podemos ir usando esses cálculos de estilo de supercomputador”, acrescenta Frankle. “Teremos que reduzir a barreira de entrada.”

“A esperança é que isso reduzirá o custo, que isso tornará mais acessível a todos…aos pequenos que têm apenas um laptop”, ele conclui.

A pesquisa está programada para ser apresentada na Conferência sobre Processamento de Informações Neurais.

Alex McFarland é um jornalista e escritor de IA que explora os últimos desenvolvimentos em inteligência artificial. Ele colaborou com inúmeras startups de IA e publicações em todo o mundo.