Stummel Vision Transformer meistern Herausforderungen mit der neuen „Patch-to-Cluster Attention“-Methode – Unite.AI
Vernetzen Sie sich mit uns

Artificial Intelligence

Vision Transformers meistern Herausforderungen mit der neuen „Patch-to-Cluster Attention“-Methode

Veröffentlicht

 on

Technologien der künstlichen Intelligenz (KI), insbesondere Vision Transformers (ViTs), haben sich mit ihrer Fähigkeit, Objekte in Bildern zu identifizieren und zu kategorisieren, als äußerst vielversprechend erwiesen. Allerdings wurde ihre praktische Anwendung durch zwei wesentliche Herausforderungen eingeschränkt: die hohen Anforderungen an die Rechenleistung und die mangelnde Transparenz bei der Entscheidungsfindung. Jetzt hat eine Gruppe von Forschern eine bahnbrechende Lösung entwickelt: eine neuartige Methodik namens „Patch-to-Cluster Attention“ (PaCa). PaCa zielt darauf ab, die Fähigkeiten der ViTs bei der Identifizierung, Klassifizierung und Segmentierung von Bildobjekten zu verbessern und gleichzeitig die seit langem bestehenden Probleme des Rechenaufwands und der Klarheit der Entscheidungsfindung zu lösen.

Bewältigung der Herausforderungen von ViTs: Ein Einblick in die neue Lösung

Transformatoren gehören aufgrund ihrer überlegenen Fähigkeiten zu den einflussreichsten Modellen in der KI-Welt. Die Leistungsfähigkeit dieser Modelle wurde durch ViTs, eine Klasse von Transformatoren, die mit visuellen Eingaben trainiert werden, auf visuelle Daten ausgeweitet. Trotz des enormen Potenzials, das ViTs bei der Interpretation und dem Verstehen von Bildern bieten, wurden sie durch einige große Probleme gebremst.

Erstens erfordern ViTs aufgrund der Art der Bilder, die große Datenmengen enthalten, erhebliche Rechenleistung und Speicher. Diese Komplexität kann für viele Systeme überfordernd sein, insbesondere beim Umgang mit hochauflösenden Bildern. Zweitens ist der Entscheidungsprozess innerhalb von ViTs oft kompliziert und undurchsichtig. Für Benutzer ist es schwierig zu verstehen, wie ViTs zwischen verschiedenen Objekten oder Merkmalen in einem Bild unterscheiden, was für zahlreiche Anwendungen von entscheidender Bedeutung ist.

Die innovative PaCa-Methodik bietet jedoch eine Lösung für beide Herausforderungen. „Wir begegnen der Herausforderung im Zusammenhang mit dem Rechen- und Speicherbedarf, indem wir Clustering-Techniken verwenden, die es der Transformatorarchitektur ermöglichen, Objekte in einem Bild besser zu identifizieren und zu fokussieren“, erklärt Tianfu Wu, korrespondierender Autor einer Arbeit über die Arbeit und außerordentlicher Professor für Elektro- und Informationstechnik an der North Carolina State University.

Der Einsatz von Clustering-Techniken in PaCa reduziert den Rechenaufwand drastisch und verwandelt das Problem von einem quadratischen Prozess in einen beherrschbaren linearen Prozess. Wu erklärt den Prozess weiter: „Durch Clustering können wir daraus einen linearen Prozess machen, bei dem jede kleinere Einheit nur mit einer vorgegebenen Anzahl von Clustern verglichen werden muss.“

Clustering dient auch der Klärung des Entscheidungsprozesses in ViTs. Der Prozess der Clusterbildung zeigt, wie das ViT entscheidet, welche Merkmale für die Gruppierung von Abschnitten der Bilddaten wichtig sind. Da die KI nur eine begrenzte Anzahl von Clustern erstellt, können Benutzer den Entscheidungsprozess leicht verstehen und untersuchen, was die Interpretierbarkeit des Modells erheblich verbessert.

Die PaCa-Methodik übertrifft andere hochmoderne ViTs

Durch umfassende Tests stellten die Forscher fest, dass die PaCa-Methodik anderen ViTs in mehreren Bereichen überlegen ist. Wu führt aus: „Wir haben festgestellt, dass PaCa SWin und PVT in jeder Hinsicht übertrifft.“ Der Testprozess ergab, dass PaCa bei der Klassifizierung und Identifizierung von Objekten in Bildern und der Segmentierung hervorragende Leistungen erbringt und die Grenzen von Objekten in Bildern effizient umreißt. Darüber hinaus erwies es sich als zeiteffizienter und erledigte Aufgaben schneller als andere ViTs.

Ermutigt durch den Erfolg von PaCa möchte das Forschungsteam seine Entwicklung vorantreiben, indem es es auf größeren Basisdatensätzen trainiert. Dadurch hoffen sie, die Grenzen dessen, was derzeit mit bildbasierter KI möglich ist, zu erweitern.

Die Forschungsarbeit, "PaCa-ViT: Erlernen der Patch-zu-Cluster-Aufmerksamkeit bei Vision Transformern„“ wird auf der kommenden vorgestellt IEEE/CVF-Konferenz zu Computer Vision und Mustererkennung. Es ist ein wichtiger Meilenstein, der den Weg für effizientere, transparentere und zugänglichere KI-Systeme ebnen könnte.

Alex McFarland ist ein KI-Journalist und Autor, der sich mit den neuesten Entwicklungen in der künstlichen Intelligenz beschäftigt. Er hat mit zahlreichen KI-Startups und Publikationen weltweit zusammengearbeitet.