Inteligência artificial

Capacitando modelos de visão ampla (LVMs) em tarefas específicas de domínio por meio de aprendizagem por transferência

Atualização do on 21 de fevereiro de 2024

Desbloqueie o potencial dos Modelos de Visão Ampla (LVMs) em vários domínios por meio de aprendizagem por transferência eficaz

A visão computacional é um campo de inteligência artificial que visa permitir que as máquinas compreendam e interpretem informações visuais, como imagens ou vídeos. A visão computacional tem muitas aplicações em vários domínios, como imagens médicas, segurança, direção autônoma e entretenimento. No entanto, desenvolver sistemas de visão computacional que tenham bom desempenho em diferentes tarefas e domínios é um desafio, exigindo muitos dados rotulados e recursos computacionais.

Uma maneira de enfrentar esse desafio é usar transferir aprendizado, uma técnica que reutiliza o conhecimento aprendido de uma tarefa ou domínio para outro. A aprendizagem por transferência pode reduzir a necessidade de dados e computação e melhorar a generalização e o desempenho dos modelos de visão computacional. Este artigo se concentra em um tipo específico de modelo de visão computacional, chamado Large Vision Models (LVMs), e como eles podem ser aproveitados para tarefas específicas de domínio por meio de aprendizagem por transferência.

O que são modelos de visão grande (LVMs)?

LVMs são modelos avançados de IA que processam e interpretam dados visuais, normalmente imagens ou vídeos. Eles são chamados "grande”Porque eles têm muitos parâmetros, muitas vezes na ordem de milhões ou até bilhões, que lhes permitem aprender padrões e recursos complexos em dados visuais. LVMs geralmente são construídos usando recursos avançados arquiteturas de rede neural, como Redes Neurais Convolucionais (CNNs) ou transformadores, que podem lidar com dados de pixel com eficiência e detectar padrões hierárquicos.

Os LVMs são treinados em uma grande quantidade de dados visuais, como imagens ou vídeos da Internet, juntamente com rótulos ou anotações relevantes. O modelo aprende ajustando seus parâmetros para minimizar a diferença entre suas previsões e os rótulos reais. Este processo requer um poder computacional significativo e um conjunto de dados grande e diversificado para garantir que o modelo possa generalizar bem para dados novos e invisíveis.

Vários exemplos proeminentes de LVMs incluem CLIP da OpenAI, que se destaca em tarefas como tiro zero classificação e recuperação de imagens através da compreensão de imagens por meio de descrições em linguagem natural. Da mesma maneira, O transformador de visão do Google adota uma arquitetura semelhante a um transformador para classificação de imagens, alcançando resultados de última geração em diversos benchmarks. Lente de pouso, desenvolvido pela LandingAI, se destaca por sua plataforma amigável, que permite projetos personalizados de visão computacional sem conhecimento de codificação. Ele emprega LVMs específicos de domínio, demonstrando desempenho robusto em tarefas como detecção de defeitos e localização de objetos, mesmo com dados rotulados limitados.

Por que transferir aprendizagem para LVMs?

Os LVMs demonstraram capacidades notáveis na compreensão e geração de dados visuais, mas também apresentam limitações. Uma das principais limitações é que eles são frequentemente treinados em conjuntos de dados de uso geral, como IMAGEnet or COCO, que pode diferir da tarefa ou domínio específico no qual o usuário está interessado. Por exemplo, um LVM treinado em imagens da Internet pode não ser capaz de reconhecer objetos raros ou novos, como instrumentos médicos ou peças industriais, que sejam relevantes para um determinado domínio.

Além disso, os LVMs podem não ser capazes de se adaptar às variações ou nuances de diferentes domínios, como outras condições de iluminação, ângulos de câmera ou fundos, que podem afetar a qualidade e a precisão das previsões do modelo.

Para superar essas limitações, a aprendizagem por transferência pode utilizar o conhecimento aprendido por um LVM em um conjunto de dados de uso geral para uma tarefa ou domínio específico. A aprendizagem por transferência é o ajuste fino ou a adaptação de um LVM às necessidades do usuário, usando uma quantidade menor de dados rotulados da tarefa ou domínio de destino.

O uso da aprendizagem por transferência oferece inúmeras vantagens para LVMs. Um benefício importante é a capacidade de transferir conhecimento de diversos dados visuais para domínios específicos, permitindo uma convergência mais rápida em tarefas específicas. Além disso, mitiga problemas de dependência de dados ao utilizar recursos aprendidos de modelos pré-treinados, reduzindo a necessidade de extensos dados rotulados específicos de domínio.

Além disso, inicializar LVMs com pesos pré-treinados leva a uma convergência acelerada durante o ajuste fino, o que é particularmente vantajoso quando os recursos computacionais são limitados. Em última análise, a aprendizagem por transferência melhora a generalização e o desempenho, adaptando LVMs a tarefas específicas e garantindo previsões precisas, promovendo a satisfação e a confiança do usuário.

Como transferir aprendizado para LVMs?

Existem diferentes abordagens e métodos para realizar a aprendizagem por transferência para LVMs, dependendo da semelhança e disponibilidade dos dados entre as tarefas ou domínios de origem e destino. Existem duas abordagens principais para a aprendizagem por transferência, nomeadamente, aprendizagem por transferência indutiva e transdutiva.

Aprendizagem por transferência indutiva assume que as tarefas de origem e de destino são diferentes, mas os domínios de origem e de destino são semelhantes. Por exemplo, a tarefa de origem poderia ser a classificação de imagens e a tarefa de destino poderia ser a detecção de objetos, mas ambas as tarefas usam imagens do mesmo domínio, como cenas naturais ou animais. Neste caso, o objetivo é transferir o conhecimento aprendido pelo LVM na tarefa de origem para a tarefa de destino, usando alguns dados rotulados da tarefa de destino para ajustar o modelo. Essa abordagem também é conhecida como aprendizagem por transferência de tarefas ou aprendizagem multitarefa.

Por outro lado, aprendizagem de transferência transdutiva assume que as tarefas de origem e de destino são semelhantes, mas os domínios de origem e de destino são diferentes. Por exemplo, as tarefas de origem e de destino poderiam ser a classificação de imagens, o domínio de origem poderia ser imagens da Internet e o domínio de destino poderia ser imagens médicas. Neste caso, o objetivo é transferir o conhecimento aprendido pelo LVM no domínio de origem para o domínio de destino, usando alguns dados rotulados ou não do domínio de destino para adaptar o modelo. Essa abordagem também é conhecida como aprendizagem por transferência de domínio ou adaptação de domínio.

Métodos para aprendizagem por transferência

A aprendizagem por transferência para LVMs envolve vários métodos adaptados a diferentes níveis de modificação e acesso a parâmetros e arquitetura do modelo. A extração de recursos é uma abordagem que utiliza os recursos conhecidos pelo LVM em uma tarefa de origem como entrada para um novo modelo no domínio de destino. Embora não exija modificações nos parâmetros ou na arquitetura do LVM, ele pode ter dificuldades para capturar recursos específicos da tarefa para o domínio de destino. Por outro lado, o ajuste fino envolve o ajuste dos parâmetros do LVM usando dados rotulados do domínio alvo. Este método aprimora a adaptação à tarefa ou domínio alvo, exigindo acesso e modificação de parâmetros.

Por último, meta-aprendizagem concentra-se no treinamento de um modelo geral capaz de rápida adaptação a novas tarefas ou domínios com pontos de dados mínimos. Utilizando algoritmos como MAML or Réptil, o meta-aprendizado permite que os LVMs aprendam com diversas tarefas, permitindo uma aprendizagem de transferência eficiente em domínios dinâmicos. Este método requer acesso e modificação dos parâmetros do LVM para uma implementação eficaz.

Exemplos de aprendizagem por transferência específica de domínio com LVMs

A aprendizagem por transferência para LVMs demonstrou um sucesso significativo em diversos domínios. A inspeção industrial é um domínio que exige elevada eficiência e qualidade nos modelos de visão computacional, pois envolve a detecção e localização de defeitos ou anomalias em diversos produtos e componentes. No entanto, a inspeção industrial enfrenta desafios como cenários diversos e complexos, condições ambientais variadas e padrões e regulamentações elevados.

A aprendizagem por transferência pode ajudar a superar esses desafios, aproveitando LVMs pré-treinados em conjuntos de dados de uso geral e ajustando-os em dados específicos de domínio. Por exemplo, a plataforma LandingLens da LandingAI permite aos usuários criar projetos personalizados de visão computacional para inspeção industrial sem experiência em codificação. Ele usa LVMs específicos de domínio para obter alto desempenho em tarefas downstream de visão computacional, como detecção de defeitos ou localização de objetos, com menos dados rotulados.

Da mesma forma, na indústria do entretenimento, a aprendizagem por transferência contribui para a criatividade e a diversidade nos modelos de visão computacional. O modelo CLIP da OpenAI, projetado para tarefas como geração de imagens a partir de descrições textuais, permite aos usuários criar conteúdos visuais diversos, como gerar imagens de “um dragãoouuma pintura de Picasso.” Esta aplicação mostra como a aprendizagem por transferência permite a geração e manipulação de conteúdo visual para fins artísticos e de entretenimento, abordando desafios relacionados às expectativas do usuário, considerações éticas e qualidade do conteúdo.

Concluindo!

Concluindo, a aprendizagem por transferência surge como uma estratégia transformadora para otimizar LVMs. Ao adaptar modelos pré-treinados a domínios específicos, a aprendizagem por transferência aborda desafios, reduz dependências de dados e acelera a convergência. A abordagem aumenta a eficiência dos LVMs em tarefas específicas de domínio. Significa um passo crucial para colmatar a lacuna entre a formação de uso geral e as aplicações especializadas, marcando um avanço significativo no campo.

A seguir

OLMo: Aprimorando a Ciência dos Modelos de Linguagem

Não Perca

Explorando o Gemini 1.5: como o mais recente modelo de IA multimodal do Google eleva o cenário da IA além de seu antecessor

Dr.Assad Abbas

Dr. Assad Abbas, um Professor Associado Titular na COMSATS University Islamabad, Paquistão, obteve seu Ph.D. pela North Dakota State University, EUA. Sua pesquisa se concentra em tecnologias avançadas, incluindo computação em nuvem, nevoeiro e edge, análise de big data e IA. Dr. Abbas fez contribuições substanciais com publicações em revistas e conferências científicas de renome.