toco Vision Transformers superam desafios com o novo método 'Patch-to-Cluster Attention' - Unite.AI
Entre em contato

Inteligência artificial

Vision Transformers superam desafios com o novo método 'Patch-to-Cluster Attention'

Publicado

 on

As tecnologias de inteligência artificial (IA), particularmente os Vision Transformers (ViTs), mostraram-se imensamente promissoras em sua capacidade de identificar e categorizar objetos em imagens. No entanto, sua aplicação prática tem sido limitada por dois desafios significativos: os altos requisitos de poder computacional e a falta de transparência na tomada de decisões. Agora, um grupo de pesquisadores desenvolveu uma solução inovadora: uma nova metodologia conhecida como “Atenção Patch-to-Cluster” (PaCa). O PaCa visa aprimorar os recursos dos ViTs na identificação, classificação e segmentação de objetos de imagem, ao mesmo tempo em que resolve os problemas de longa data de demandas computacionais e clareza na tomada de decisões.

Enfrentando os desafios dos ViTs: um vislumbre da nova solução

Os transformadores, devido às suas capacidades superiores, estão entre os modelos mais influentes no mundo da IA. O poder desses modelos foi estendido para dados visuais por meio de ViTs, uma classe de transformadores treinados com entradas visuais. Apesar do tremendo potencial oferecido pelos ViTs na interpretação e compreensão de imagens, eles foram impedidos por alguns problemas importantes.

Primeiro, devido à natureza das imagens que contêm grandes quantidades de dados, os ViTs requerem poder computacional e memória substanciais. Essa complexidade pode ser esmagadora para muitos sistemas, especialmente ao lidar com imagens de alta resolução. Em segundo lugar, o processo de tomada de decisão dentro dos ViTs costuma ser complicado e opaco. Os usuários acham difícil compreender como os ViTs diferenciam entre vários objetos ou recursos em uma imagem, o que é crucial para inúmeras aplicações.

No entanto, a metodologia inovadora PaCa oferece uma solução para esses dois desafios. “Enfrentamos o desafio relacionado às demandas computacionais e de memória usando técnicas de agrupamento, que permitem que a arquitetura do transformador identifique e foque melhor os objetos em uma imagem”, explica Tianfu Wu, autor correspondente de um artigo sobre o trabalho e professor associado de Engenharia Elétrica e de Computação na North Carolina State University.

O uso de técnicas de agrupamento em PaCa reduz drasticamente os requisitos computacionais, transformando o problema de um processo quadrático em um linear gerenciável. Wu explica ainda mais o processo: “Ao agrupar, podemos tornar isso um processo linear, em que cada unidade menor só precisa ser comparada a um número predeterminado de clusters”.

O agrupamento também serve para esclarecer o processo de tomada de decisão em ViTs. O processo de formação de clusters revela como o ViT decide quais recursos são importantes para agrupar as seções dos dados da imagem. Como a IA cria apenas um número limitado de clusters, os usuários podem entender e examinar facilmente o processo de tomada de decisão, melhorando significativamente a interpretabilidade do modelo.

Metodologia PaCa supera outros ViTs de última geração

Por meio de testes abrangentes, os pesquisadores descobriram que a metodologia PaCa supera outras ViTs em várias frentes. Wu elabora: “Descobrimos que o PaCa superou o SWin e o PVT em todos os aspectos”. O processo de teste revelou que PaCa se destacou na classificação e identificação de objetos dentro de imagens e segmentação, delineando com eficiência os limites dos objetos nas imagens. Além disso, verificou-se ser mais eficiente em termos de tempo, realizando tarefas mais rapidamente do que outros ViTs.

Incentivado pelo sucesso do PaCa, a equipe de pesquisa pretende promover seu desenvolvimento treinando-o em conjuntos de dados fundamentais maiores. Ao fazer isso, eles esperam ultrapassar os limites do que é atualmente possível com a IA baseada em imagens.

O trabalho de pesquisa, “PaCa-ViT: Aprendendo atenção patch-to-cluster em Vision Transformers”, será apresentado na próxima Conferência IEEE/CVF sobre Visão Computacional e Reconhecimento de Padrões. É um marco importante que pode abrir caminho para sistemas de IA mais eficientes, transparentes e acessíveis.

Alex McFarland é um jornalista e escritor de IA que explora os mais recentes desenvolvimentos em inteligência artificial. Ele colaborou com inúmeras startups e publicações de IA em todo o mundo.