Intel·ligència Artificial

Els transformadors de visió superen els reptes amb el nou mètode "Atenció del pegat al clúster".

publicat

Fa mesos 11

Juny 5, 2023

Les tecnologies d'intel·ligència artificial (IA), especialment els transformadors de visió (ViTs), han mostrat una immensa promesa en la seva capacitat per identificar i classificar objectes en imatges. No obstant això, la seva aplicació pràctica s'ha vist limitada per dos reptes importants: els requisits d'alta potència computacional i la manca de transparència en la presa de decisions. Ara, un grup d'investigadors ha desenvolupat una solució innovadora: una nova metodologia coneguda com a "atenció al pegat al clúster" (PaCa). PaCa té com a objectiu millorar les capacitats dels ViT en la identificació, classificació i segmentació d'objectes d'imatge, alhora que resol els problemes de llarga data de les demandes computacionals i la claredat en la presa de decisions.

Abordant els reptes dels ViTs: un cop d'ull a la nova solució

Els transformadors, a causa de les seves capacitats superiors, es troben entre els models més influents del món de la IA. La potència d'aquests models s'ha estès a les dades visuals mitjançant ViT, una classe de transformadors que s'entrenen amb entrades visuals. Malgrat l'enorme potencial que ofereixen els ViT per interpretar i comprendre imatges, s'han vist frenats per un parell de problemes importants.

En primer lloc, a causa de la naturalesa de les imatges que contenen grans quantitats de dades, els ViT requereixen una potència computacional i una memòria substancials. Aquesta complexitat pot ser aclaparadora per a molts sistemes, especialment quan es manipulen imatges d'alta resolució. En segon lloc, el procés de presa de decisions dins dels ViT sovint és complicat i opac. Els usuaris tenen dificultats per comprendre com els ViT diferencien entre diversos objectes o característiques d'una imatge, cosa que és crucial per a nombroses aplicacions.

Tanmateix, la innovadora metodologia PaCa ofereix una solució a aquests dos reptes. "Enfrontem el repte relacionat amb les demandes computacionals i de memòria utilitzant tècniques d'agrupació, que permeten a l'arquitectura del transformador identificar i centrar-se millor en els objectes d'una imatge", explica Tianfu Wu, autor corresponent d'un article sobre el treball i professor associat de Enginyeria elèctrica i informàtica a la North Carolina State University.

L'ús de tècniques de clustering en PaCa redueix dràsticament els requeriments computacionals, convertint el problema d'un procés quadràtic en un de lineal manejable. Wu explica a més el procés: "Mitjançant l'agrupació, podem fer que aquest sigui un procés lineal, on cada unitat més petita només s'ha de comparar amb un nombre predeterminat de clústers".

El clúster també serveix per aclarir el procés de presa de decisions als ViT. El procés de formació de clústers revela com el ViT decideix quines característiques són importants per agrupar seccions de les dades de la imatge. Com que la IA només crea un nombre limitat de clústers, els usuaris poden entendre i examinar fàcilment el procés de presa de decisions, millorant significativament la interpretabilitat del model.

La metodologia PaCa supera altres ViT d'última generació

Mitjançant proves exhaustives, els investigadors van trobar que la metodologia PaCa supera altres ViT en diversos fronts. Wu explica: "Hem trobat que PaCa va superar SWin i PVT en tots els sentits". El procés de prova va revelar que PaCa va excel·lir en la classificació i identificació d'objectes dins d'imatges i segmentació, delimitant de manera eficient els límits dels objectes a les imatges. A més, es va trobar que era més eficient en temps, realitzant tasques més ràpidament que altres ViT.

Encoratjat per l'èxit de PaCa, l'equip d'investigació pretén continuar el seu desenvolupament formant-lo en conjunts de dades fonamentals més grans. En fer-ho, esperen superar els límits del que és possible actualment amb la IA basada en imatges.

El document de recerca, "PaCa-ViT: Aprenentatge de l'atenció de pedaç a clúster en Vision Transformers”, es presentarà en la propera edició Conferència IEEE/CVF sobre visió per ordinador i reconeixement de patrons. És una fita important que podria obrir el camí cap a sistemes d'IA més eficients, transparents i accessibles.

Temes relacionats:Visió per ordinador

Fins a la propera

AutoGPT: tot el que necessiteu saber sobre aquest agent d'IA autònom basat en PNL

No et perdis

Líders tecnològics que destaquen els riscos de la IA i la urgència d'una regulació sòlida de la IA

Alex McFarland

Alex McFarland és un periodista i escriptor d'IA que explora els últims desenvolupaments en intel·ligència artificial. Ha col·laborat amb nombroses startups i publicacions d'IA a tot el món.