toco Pesquisadores do Google descobrem problema de subespecificação que impede muitos modelos de IA - Unite.AI
Entre em contato

Inteligência artificial

Pesquisadores do Google descobrem problema de subespecificação que impede muitos modelos de IA

mm
Atualização do on

Recentemente, uma equipe de pesquisadores do Google identificou uma causa comum para as falhas dos modelos de IA, apontando a subespecificação como uma das principais razões pelas quais os modelos de aprendizado de máquina geralmente apresentam desempenho bastante diferente no mundo real do que durante o teste e o desenvolvimento.

Os modelos de aprendizado de máquina geralmente falham ao lidar com tarefas em um ambiente real, mesmo que os modelos tenham um desempenho ideal no laboratório. Há muitas razões pelas quais ocorre a incompatibilidade entre treinamento/desenvolvimento e desempenho no mundo real. Um dos motivos mais comuns pelos quais os modelos de IA falham durante tarefas do mundo real é um conceito conhecido como mudança de dados. A mudança de dados refere-se a uma diferença fundamental entre o tipo de dados usados ​​para desenvolver um modelo de aprendizado de máquina e os dados inseridos no modelo durante a aplicação. Por exemplo, os modelos de visão computacional treinados em dados de imagem de alta qualidade terão dificuldade para funcionar quando alimentados com dados capturados por câmeras de baixa qualidade encontradas no ambiente diário do modelo.

De acordo com a revisão de tecnologia do MIT, uma equipe de 40 pesquisadores diferentes do Google identificou outro motivo pelo qual o desempenho de um modelo de aprendizado de máquina pode variar tão drasticamente. O problema é a “'subespecificação”, um conceito estatístico que descreve problemas em que fenômenos observados têm muitas causas possíveis, nem todas consideradas pelo modelo. Segundo o líder do estudo Alex D'Amour, o problema é testemunhado em muitos modelos de aprendizado de máquina dizendo que o fenômeno “acontece em todo lugar”.

O método típico de treinamento de um modelo de aprendizado de máquina envolve alimentar o modelo com uma grande quantidade de dados que ele pode analisar e extrair padrões relevantes. Posteriormente, o modelo é alimentado com exemplos que não viu e solicitado a prever a natureza desses exemplos com base nos recursos que aprendeu. Uma vez que o modelo tenha atingido um certo nível de precisão, o treinamento geralmente é considerado completo.

De acordo com a equipe de pesquisa do Google, mais precisa ser feito para garantir que os modelos possam realmente generalizar para dados que não são de treinamento. O método clássico de treinamento de modelos de aprendizado de máquina produzirá vários modelos que podem passar em seus testes, mas esses modelos diferem em pequenas coisas que parecem insignificantes, mas não são. Diferentes nós nos modelos terão diferentes valores aleatórios atribuídos a eles, ou os dados de treinamento podem ser selecionados ou representados de maneiras diferentes. Essas variações são pequenas e muitas vezes arbitrárias e, se não tiverem um grande impacto sobre o desempenho dos modelos durante o treinamento, são fáceis de ignorar. No entanto, quando o impacto de todas essas pequenas mudanças se acumula, elas podem levar a grandes variações no desempenho do mundo real.

Essa subespecificação é problemática porque significa que, mesmo que o processo de treinamento seja capaz de produzir bons modelos, ele também pode produzir um modelo ruim e a diferença não seria descoberta até que o modelo saísse da produção e entrasse em uso.

Para avaliar o impacto da subespecificação, a equipe de pesquisa examinou vários modelos diferentes. Cada modelo foi treinado usando o mesmo processo de treinamento e, em seguida, os modelos foram submetidos a uma série de testes para destacar as diferenças de desempenho. Em uma instância, 50 versões diferentes de um sistema de reconhecimento de imagem foram treinadas no conjunto de dados ImageNet. Os modelos eram todos iguais, exceto pelos valores da rede neural que foram atribuídos aleatoriamente durante o início do treinamento. Os testes de estresse usados ​​para determinar as diferenças nos modelos foram conduzidos usando o ImageNet-C, uma variação do conjunto de dados original que consiste em imagens alteradas por ajuste de contraste ou brilho. Os modelos também foram testados no ObjectNet, uma série de imagens com objetos do cotidiano em orientações e contextos incomuns. Embora todos os 50 modelos tivessem aproximadamente o mesmo desempenho no conjunto de dados de treinamento, o desempenho flutuou amplamente quando os modelos foram executados nos testes de estresse.

A equipe de pesquisa descobriu que resultados semelhantes ocorreram quando treinaram e testaram dois sistemas de PNL diferentes, bem como quando testaram vários outros modelos de visão computacional. Em cada caso, os modelos divergiram muito entre si, embora o processo de treinamento para todos os modelos fosse o mesmo.

De acordo com D'Amour, os pesquisadores e engenheiros de aprendizado de máquina precisam fazer muito mais testes de estresse antes de lançar modelos na natureza. Isso pode ser difícil de fazer, uma vez que os testes de estresse precisam ser adaptados para tarefas específicas usando dados do mundo real, dados que podem ser difíceis de obter para determinadas tarefas e contextos. Uma possível solução para o problema da subespecificação é produzir muitos modelos de uma só vez e depois testar os modelos em uma série de tarefas do mundo real, escolhendo o modelo que consistentemente mostra os melhores resultados. Desenvolver modelos dessa maneira leva muito tempo e recursos, mas a compensação pode valer a pena, especialmente para modelos de IA usados ​​em contextos médicos ou outras áreas onde a segurança é uma preocupação primordial. Como D'Amour explicou através da revisão de tecnologia do MIT:

“Precisamos melhorar a especificação exata de quais são nossos requisitos para nossos modelos. Porque muitas vezes o que acaba acontecendo é que descobrimos esses requisitos somente depois que o modelo falhou no mundo.”