Inteligência artificial

Transformadores de Visão Superam Desafios com Novo Método de ‘Atenção de Patch-to-Cluster’

Published June 5, 2023

Updated April 4, 2026

Alex McFarland

As tecnologias de inteligência artificial (IA), particularmente os Transformadores de Visão (ViTs), mostraram um grande potencial em sua capacidade de identificar e categorizar objetos em imagens. No entanto, sua aplicação prática foi limitada por dois desafios significativos: os altos requisitos de poder computacional e a falta de transparência na tomada de decisões. Agora, um grupo de pesquisadores desenvolveu uma solução inovadora: uma nova metodologia conhecida como “Atenção de Patch-to-Cluster” (PaCa). A PaCa visa melhorar as capacidades dos ViTs na identificação, classificação e segmentação de objetos em imagens, ao mesmo tempo em que resolve os problemas de longa data de demandas computacionais e clareza na tomada de decisões.

Abordando os Desafios dos ViTs: Um Olhar sobre a Nova Solução

Os Transformadores, devido às suas capacidades superiores, são um dos modelos mais influentes no mundo da IA. O poder desses modelos foi estendido a dados visuais por meio dos ViTs, uma classe de transformadores treinados com entradas visuais. Apesar do tremendo potencial oferecido pelos ViTs na interpretação e compreensão de imagens, eles foram limitados por um par de problemas importantes.

Primeiro, devido à natureza das imagens que contêm vastas quantidades de dados, os ViTs exigem uma grande quantidade de poder computacional e memória. Essa complexidade pode ser esmagadora para muitos sistemas, especialmente quando se lida com imagens de alta resolução. Segundo, o processo de tomada de decisões dentro dos ViTs é frequentemente confuso e opaco. Os usuários encontram dificuldade em compreender como os ViTs diferenciam entre vários objetos ou recursos em uma imagem, o que é crucial para inúmeras aplicações.

No entanto, a metodologia inovadora PaCa oferece uma solução para ambos os desafios. “Nós abordamos o desafio relacionado às demandas computacionais e de memória usando técnicas de clusterização, que permitem que a arquitetura do transformador identifique e se concentre melhor nos objetos em uma imagem”, explica Tianfu Wu, autor correspondente de um artigo sobre o trabalho e professor associado de Engenharia Elétrica e Computacional da Universidade Estadual da Carolina do Norte.

O uso de técnicas de clusterização na PaCa reduz drasticamente os requisitos computacionais, transformando o problema de um processo quadrático em um processo linear gerenciável. Wu explica ainda o processo, “Ao clusterizar, podemos tornar isso um processo linear, onde cada unidade menor só precisa ser comparada a um número predeterminado de clusters”.

A clusterização também serve para esclarecer o processo de tomada de decisões nos ViTs. O processo de formação de clusters revela como o ViT decide quais recursos são importantes para agrupar seções dos dados de imagem. Como o AI cria apenas um número limitado de clusters, os usuários podem facilmente entender e examinar o processo de tomada de decisões, melhorando significativamente a interpretabilidade do modelo.

Metodologia PaCa Supera Outros ViTs de Ponta

Por meio de testes abrangentes, os pesquisadores descobriram que a metodologia PaCa supera outros ViTs em vários aspectos. Wu explica, “Descobrimos que a PaCa superou o SWin e o PVT em todos os aspectos”. O processo de teste revelou que a PaCa se destacou na classificação e identificação de objetos dentro de imagens e segmentação, delineando eficientemente os limites dos objetos em imagens. Além disso, foi constatado que é mais eficiente em termos de tempo, realizando tarefas mais rapidamente do que outros ViTs.

Incentivados pelo sucesso da PaCa, a equipe de pesquisa pretende desenvolver ainda mais a metodologia, treinando-a em conjuntos de dados fundamentais maiores. Ao fazer isso, eles esperam expandir os limites do que é atualmente possível com a IA baseada em imagens.

O artigo de pesquisa, “PaCa-ViT: Aprendizado de Atenção de Patch-to-Cluster em Transformadores de Visão“, será apresentado na próxima Conferência IEEE/CVF sobre Visão Computacional e Reconhecimento de Padrões. É um marco importante que pode abrir caminho para sistemas de IA mais eficientes, transparentes e acessíveis.