Inteligência artificial
Transformadores de Visão Superam Desafios com Novo Método de ‘Atenção de Patch-to-Cluster’

As tecnologias de inteligência artificial (IA), particularmente os Transformadores de Visão (ViTs), mostraram um grande potencial em sua capacidade de identificar e categorizar objetos em imagens. No entanto, sua aplicação prática foi limitada por dois desafios significativos: os altos requisitos de poder computacional e a falta de transparência na tomada de decisões. Agora, um grupo de pesquisadores desenvolveu uma solução inovadora: uma nova metodologia conhecida como “Atenção de Patch-to-Cluster” (PaCa). A PaCa visa melhorar as capacidades dos ViTs na identificação, classificação e segmentação de objetos em imagens, ao mesmo tempo em que resolve os problemas de longa data de demandas computacionais e clareza na tomada de decisões.
Abordando os Desafios dos ViTs: Um Olhar sobre a Nova Solução
Os Transformadores, devido às suas capacidades superiores, são um dos modelos mais influentes no mundo da IA. O poder desses modelos foi estendido a dados visuais por meio dos ViTs, uma classe de transformadores treinados com entradas visuais. Apesar do tremendo potencial oferecido pelos ViTs na interpretação e compreensão de imagens, eles foram limitados por um par de problemas importantes.
Primeiro, devido à natureza das imagens que contêm vastas quantidades de dados, os ViTs exigem uma grande quantidade de poder computacional e memória. Essa complexidade pode ser esmagadora para muitos sistemas, especialmente quando se lida com imagens de alta resolução. Segundo, o processo de tomada de decisões dentro dos ViTs é frequentemente confuso e opaco. Os usuários encontram dificuldade em compreender como os ViTs diferenciam entre vários objetos ou recursos em uma imagem, o que é crucial para inúmeras aplicações.
No entanto, a metodologia inovadora PaCa oferece uma solução para ambos os desafios. “Nós abordamos o desafio relacionado às demandas computacionais e de memória usando técnicas de clusterização, que permitem que a arquitetura do transformador identifique e se concentre melhor nos objetos em uma imagem”, explica Tianfu Wu, autor correspondente de um artigo sobre o trabalho e professor associado de Engenharia Elétrica e Computacional da Universidade Estadual da Carolina do Norte.
O uso de técnicas de clusterização na PaCa reduz drasticamente os requisitos computacionais, transformando o problema de um processo quadrático em um processo linear gerenciável. Wu explica ainda o processo, “Ao clusterizar, podemos tornar isso um processo linear, onde cada unidade menor só precisa ser comparada a um número predeterminado de clusters”.
A clusterização também serve para esclarecer o processo de tomada de decisões nos ViTs. O processo de formação de clusters revela como o ViT decide quais recursos são importantes para agrupar seções dos dados de imagem. Como o AI cria apenas um número limitado de clusters, os usuários podem facilmente entender e examinar o processo de tomada de decisões, melhorando significativamente a interpretabilidade do modelo.
Metodologia PaCa Supera Outros ViTs de Ponta
Por meio de testes abrangentes, os pesquisadores descobriram que a metodologia PaCa supera outros ViTs em vários aspectos. Wu explica, “Descobrimos que a PaCa superou o SWin e o PVT em todos os aspectos”. O processo de teste revelou que a PaCa se destacou na classificação e identificação de objetos dentro de imagens e segmentação, delineando eficientemente os limites dos objetos em imagens. Além disso, foi constatado que é mais eficiente em termos de tempo, realizando tarefas mais rapidamente do que outros ViTs.
Incentivados pelo sucesso da PaCa, a equipe de pesquisa pretende desenvolver ainda mais a metodologia, treinando-a em conjuntos de dados fundamentais maiores. Ao fazer isso, eles esperam expandir os limites do que é atualmente possível com a IA baseada em imagens.
O artigo de pesquisa, “PaCa-ViT: Aprendizado de Atenção de Patch-to-Cluster em Transformadores de Visão“, será apresentado na próxima Conferência IEEE/CVF sobre Visão Computacional e Reconhecimento de Padrões. É um marco importante que pode abrir caminho para sistemas de IA mais eficientes, transparentes e acessíveis.












