Künstliche Intelligenz

Vision-Transformations überwinden Herausforderungen mit neuer “Patch-to-Cluster-Aufmerksamkeits”-Methode

Published June 5, 2023

Updated April 4, 2026

Alex McFarland

Künstliche Intelligenz (KI)-Technologien, insbesondere Vision-Transformations (ViTs), haben enorme Versprechen in ihrer Fähigkeit gezeigt, Objekte in Bildern zu identifizieren und zu kategorisieren. Allerdings wurde ihre praktische Anwendung durch zwei bedeutende Herausforderungen eingeschränkt: die hohen Anforderungen an Rechenleistung und den Mangel an Transparenz bei der Entscheidungsfindung. Jetzt hat eine Gruppe von Forschern eine Durchbruchslösung entwickelt: eine neuartige Methodik, die als “Patch-to-Cluster-Aufmerksamkeit” (PaCa) bekannt ist. PaCa zielt darauf ab, die Fähigkeiten von ViTs bei der Bildobjekterkennung, -klassifizierung und -segmentierung zu verbessern, während gleichzeitig die langjährigen Probleme der Rechenanforderungen und der Klarheit der Entscheidungsfindung gelöst werden.

Die Herausforderungen von ViTs angehen: Ein Blick auf die neue Lösung

Transformations, aufgrund ihrer überlegenen Fähigkeiten, sind unter den einflussreichsten Modellen in der KI-Welt. Die Macht dieser Modelle wurde auf visuelle Daten durch ViTs erweitert, eine Klasse von Transformations, die mit visuellen Eingaben trainiert wird. Trotz des enormen Potenzials, das ViTs bei der Interpretation und dem Verständnis von Bildern bieten, wurden sie durch zwei größere Probleme behindert.

Zunächst erfordern ViTs aufgrund der Natur von Bildern, die große Mengen an Daten enthalten, erhebliche Rechenleistung und Speicher. Diese Komplexität kann für viele Systeme überwältigend sein, insbesondere bei der Verarbeitung von hochauflösenden Bildern. Zweitens ist der Entscheidungsprozess innerhalb von ViTs oft verwirrend und undurchsichtig. Benutzer finden es schwierig zu verstehen, wie ViTs zwischen verschiedenen Objekten oder Merkmalen in einem Bild unterscheiden, was für zahlreiche Anwendungen von entscheidender Bedeutung ist.

Allerdings bietet die innovative PaCa-Methodik eine Lösung für beide Herausforderungen. “Wir gehen das Problem in Bezug auf Rechen- und Speicheranforderungen an, indem wir Clustering-Techniken verwenden, die es dem Transformations-Architektur ermöglichen, besser auf Objekte in einem Bild zu identifizieren und sich darauf zu konzentrieren”, erklärt Tianfu Wu, korrespondierender Autor eines Artikels über die Arbeit und Associate Professor für Elektrotechnik und Informatik an der North Carolina State University.

Die Verwendung von Clustering-Techniken in PaCa reduziert die Rechenanforderungen drastisch, indem sie das Problem von einem quadratischen Prozess in einen handhabbaren linearen Prozess umwandelt. Wu erklärt den Prozess weiter, “Durch Clustering können wir diesen Prozess linear machen, bei dem jedes kleinere Einheit nur mit einer vorher festgelegten Anzahl von Clustern verglichen werden muss.”

Clustering dient auch dazu, den Entscheidungsprozess in ViTs zu klären. Der Prozess der Clusterbildung zeigt, wie die ViT entscheidet, welche Merkmale wichtig sind, um Abschnitte des Bildmaterials zusammenzufassen. Da die KI nur eine begrenzte Anzahl von Clustern erstellt, können Benutzer den Entscheidungsprozess leicht verstehen und untersuchen, was die Interpretierbarkeit des Modells erheblich verbessert.

PaCa-Methodik übertrifft andere State-of-the-Art-ViTs

Durch umfassende Tests fanden die Forscher heraus, dass die PaCa-Methodik andere ViTs in mehreren Bereichen übertrifft. Wu erläutert, “Wir fanden heraus, dass PaCa SWin und PVT in jeder Hinsicht übertraf.” Der Testprozess zeigte, dass PaCa hervorragend darin war, Objekte in Bildern zu klassifizieren und zu identifizieren und die Segmentierung, indem es die Grenzen von Objekten in Bildern effizient umriss. Darüber hinaus wurde festgestellt, dass es zeiteffizienter war und Aufgaben schneller ausführte als andere ViTs.

Ermutigt durch den Erfolg von PaCa, zielt das Forschungsteam darauf ab, die Entwicklung weiter voranzutreiben, indem es auf größeren Grundlagendatensätzen trainiert wird. Durch diese Maßnahme hoffen sie, die Grenzen dessen, was derzeit mit bildbasierten KI möglich ist, zu erweitern.

Der Forschungsartikel, “PaCa-ViT: Learning Patch-to-Cluster Attention in Vision Transformers“, wird auf der anstehenden IEEE/CVF Conference on Computer Vision and Pattern Recognition präsentiert. Es ist ein wichtiger Meilenstein, der den Weg für effizientere, transparentere und zugänglichere KI-Systeme ebnen könnte.