toco A pesquisa do Google identifica um gargalo nas abordagens de hiperescala para IA - Unite.AI
Entre em contato

Inteligência artificial

A pesquisa do Google identifica um gargalo nas abordagens de hiperescala para IA

mm
Atualização do on

Um novo artigo do Google Research indica que a tendência atual de curadoria de conjuntos de dados de grande volume pode ser contraproducente para o desenvolvimento de sistemas eficazes de inteligência artificial. Na verdade, a pesquisa indica que melhores produtos de aprendizado de máquina podem surgir ao serem treinados em menos conjuntos de dados precisos (ou seja, tecnicamente 'piores').

Se os princípios obtidos pelos pesquisadores forem válidos, isso significa que conjuntos de dados de 'hiperescala', como o recém-lançado LAION-400M (que contém 400 milhões de pares de texto/imagem) e os dados por trás do mecanismo de linguagem neural GPT-3 (contendo 175 bilhões de parâmetros) estão potencialmente sujeitos a uma espécie de 'limite térmico' em arquiteturas de aprendizado de máquina tradicionais e populares e metodologias, em que o grande volume de dados 'satura' os aplicativos downstream e os impede de generalizar de maneira útil.

Os pesquisadores também propõem métodos alternativos para repensar a arquitetura do conjunto de dados em hiperescala, a fim de corrigir o desequilíbrio.

O artigo afirma:

'Indo mais fundo para entender as razões que dão origem a esses fenômenos, mostramos que o comportamento de saturação que observamos está intimamente relacionado ao modo como as representações evoluem pelas camadas dos modelos. Mostramos um cenário ainda mais extremo em que o desempenho no upstream e no downstream está em desacordo. Ou seja, para ter um melhor desempenho a jusante, precisamos prejudicar a precisão a montante.'

A estudo é intitulado Explorando os limites do pré-treinamento em larga escala, e vem de quatro autores do Google Research.

Investigando 'Saturação'

Os autores desafiam as suposições predominantes de aprendizado de máquina>relações de dados na era dos dados em hiperescala: que dimensionar modelos e tamanho de dados melhora notavelmente o desempenho (uma crença que foi consolidada no hype sobre o GPT-3 desde seu lançamento); e que esse desempenho aprimorado 'passa' para tarefas de downstream de maneira linear (ou seja, desejável), de modo que os algoritmos no dispositivo que eventualmente são lançados no mercado, derivados de enormes conjuntos de dados de outra forma ingovernáveis ​​e modelos treinados não destilados, se beneficiem completamente de as percepções das arquiteturas upstream em tamanho real.

'Estas vistas,' os pesquisadores observam 'sugere que gastar esforços de computação e pesquisa para melhorar o desempenho em um corpus massivo valeria a pena, porque isso nos permitiria resolver muitas tarefas downstream quase de graça.'

Mas o artigo afirma que a falta de recursos de computação e os subsequentes métodos 'econômicos' de avaliação do modelo estão contribuindo para uma falsa impressão da dinâmica do relacionamento entre o volume de dados e os sistemas úteis de IA. Os autores identificam esse hábito como 'uma grande deficiência', uma vez que a comunidade de pesquisa normalmente assume que os resultados locais (positivos) se traduzirão em implementações posteriores úteis:

'[Devido] a limitações de computação, o desempenho para diferentes opções de valores de hiperparâmetros não é relatado. Os gráficos de escala parecem mais favoráveis ​​se o hiperparâmetro escolhido para cada escala for fixo ou determinado por uma função de escala simples.'

Os pesquisadores afirmam ainda que muitos estudos de dimensionamento são medidos não em relação a escalas absolutas, mas como melhorias incrementais em relação ao estado da arte (SotA), observando que 'não há razão, a priori, para o dimensionamento se manter fora de a faixa estudada'.

Pré treino

O artigo aborda a prática de “pré-treinamento”, uma medida projetada para economizar recursos de computação e reduzir os prazos muitas vezes horríveis necessários para treinar um modelo em dados de grande escala a partir do zero. Os instantâneos de pré-treinamento lidam com o 'ABC' da forma como os dados dentro de um domínio se tornarão generalizados durante o treinamento e são comumente usados ​​em uma variedade de setores e especialidades de aprendizado de máquina, desde Processamento de Linguagem Natural (PNL) até deepfakes.

Pesquisas acadêmicas anteriores têm encontrado que o pré-treinamento pode melhorar notavelmente a robustez e a precisão do modelo, mas o novo artigo sugere que a complexidade dos recursos, mesmo em modelos de pré-treinamento relativamente curtos, pode ser mais benéfica se desviada para processos posteriores no pipeline .

No entanto, isso não pode acontecer se os pesquisadores continuarem dependendo de modelos pré-treinados que usam as melhores práticas atuais na aplicação de taxas de aprendizado, o que, conclui a pesquisa, pode afetar notavelmente a precisão final das aplicações finais do trabalho. A esse respeito, os autores observam que 'não se pode esperar encontrar um ponto de verificação pré-treinado que tenha um bom desempenho em todas as tarefas posteriores possíveis'.

O Estudo

Para estabelecer o efeito de saturação, os autores conduziram 4800 experimentos em Vision Transformers, ResNets e MLP-Mixers, cada um com um número variável de parâmetros, de 10 milhões a 10 bilhões, todos treinados nos conjuntos de dados de maior volume disponíveis nos respectivos setores, Incluindo ImageNet21K e do próprio Google JFT-300M.

Os resultados, afirma o artigo, mostram que diversidade de dados deve ser considerado como um eixo adicional ao tentar 'escalonar' dados, parâmetros de modelo e tempo de computação. Tal como está, a forte concentração de recursos de treinamento (e atenção do pesquisador) na seção upstream de um pipeline de IA está efetivamente explodindo aplicativos downstream com uma avalanche de parâmetros até um ponto de 'saturação', diminuindo a capacidade de algoritmos implantados para navegar através de recursos e realizar inferências ou transformações de efeitos.

O artigo conclui:

'Através de um extenso estudo, estabelecemos que, à medida que melhoramos o desempenho da tarefa upstream, seja por escala ou hiperparâmetros e escolhas arquitetônicas, o desempenho das tarefas downstream mostra um comportamento saturante. Além disso, fornecemos fortes evidências empíricas de que, ao contrário da narrativa comum, o dimensionamento não leva a uma solução única para todos os modelos.'