Inteligencia artificial

Transformadores de Visión Superan Desafíos con Nuevo Método de ‘Atención de Revisión a Clúster’

Published June 5, 2023

Updated April 28, 2026

Alex McFarland

Las tecnologías de inteligencia artificial (IA), particularmente los Transformadores de Visión (ViTs), han mostrado un gran potencial en su capacidad para identificar y categorizar objetos en imágenes. Sin embargo, su aplicación práctica ha sido limitada por dos desafíos significativos: los altos requisitos de potencia computacional y la falta de transparencia en la toma de decisiones. Ahora, un grupo de investigadores ha desarrollado una solución innovadora: una metodología novedosa conocida como “Atención de Revisión a Clúster” (PaCa). PaCa tiene como objetivo mejorar las capacidades de los ViTs en la identificación, clasificación y segmentación de objetos en imágenes, al mismo tiempo que resuelve los problemas largamente existentes de demandas computacionales y claridad en la toma de decisiones.

Abordar los Desafíos de los ViTs: Un Vistazo a la Nueva Solución

Los transformadores, debido a sus capacidades superiores, son uno de los modelos más influyentes en el mundo de la IA. El poder de estos modelos se ha extendido a los datos visuales a través de los ViTs, una clase de transformadores que se entrenan con entradas visuales. A pesar del gran potencial que ofrecen los ViTs en la interpretación y comprensión de imágenes, han sido limitados por un par de problemas importantes.

Primero, debido a la naturaleza de las imágenes que contienen vastas cantidades de datos, los ViTs requieren una gran potencia computacional y memoria. Esta complejidad puede ser abrumadora para muchos sistemas, especialmente cuando se manejan imágenes de alta resolución. Segundo, el proceso de toma de decisiones dentro de los ViTs es a menudo confuso y opaco. Los usuarios encuentran difícil comprender cómo los ViTs diferencian entre varios objetos o características en una imagen, lo que es crucial para numerosas aplicaciones.

Sin embargo, la metodología innovadora PaCa ofrece una solución a ambos desafíos. “Abordamos el desafío relacionado con las demandas computacionales y de memoria utilizando técnicas de clustering, que permiten a la arquitectura del transformador identificar y centrarse mejor en los objetos de una imagen”, explica Tianfu Wu, autor correspondiente de un artículo sobre el trabajo y profesor asociado de Ingeniería Eléctrica y Computacional en la Universidad Estatal de Carolina del Norte.

El uso de técnicas de clustering en PaCa reduce drásticamente los requisitos computacionales, convirtiendo el problema de un proceso cuadrático en uno lineal manejable. Wu explica el proceso de la siguiente manera: “Al clusterizar, podemos hacer que este sea un proceso lineal, donde cada unidad más pequeña solo necesita ser comparada con un número predeterminado de clústeres”.

El clustering también sirve para aclarar el proceso de toma de decisiones en los ViTs. El proceso de formar clústeres revela cómo el ViT decide qué características son importantes para agrupar secciones de los datos de la imagen. Como el IA solo crea un número limitado de clústeres, los usuarios pueden comprender y examinar fácilmente el proceso de toma de decisiones, mejorando significativamente la interpretación del modelo.

Método PaCa Superó a Otros ViTs de Última Generación

A través de pruebas exhaustivas, los investigadores encontraron que la metodología PaCa superó a otros ViTs en varios frentes. Wu explica: “Encontramos que PaCa superó a SWin y PVT en todos los aspectos”. El proceso de prueba reveló que PaCa sobresalió en la clasificación y identificación de objetos dentro de las imágenes y en la segmentación, delineando eficientemente los límites de los objetos en las imágenes. Además, se encontró que era más eficiente en términos de tiempo, realizando tareas más rápidamente que otros ViTs.

Animados por el éxito de PaCa, el equipo de investigación tiene como objetivo desarrollarlo aún más entrenándolo en conjuntos de datos fundamentales más grandes. Al hacerlo, esperan empujar los límites de lo que es posible actualmente con la IA basada en imágenes.

El artículo de investigación, “PaCa-ViT: Aprendizaje de Atención de Revisión a Clúster en Transformadores de Visión“, se presentará en la próxima Conferencia IEEE/CVF sobre Visión Computacional y Reconocimiento de Patrones. Es un hito importante que podría allanar el camino para sistemas de IA más eficientes, transparentes y accesibles.

Alex McFarland

Alex McFarland es un periodista y escritor de inteligencia artificial que explora los últimos desarrollos en inteligencia artificial. Ha colaborado con numerosas startups y publicaciones de inteligencia artificial en todo el mundo.