Sztuczna inteligencja

Transformery Wizji Pokonują Wyzwania Z Nową Metodą “Patch-to-Cluster Attention”

Published June 5, 2023

Updated April 4, 2026

Alex McFarland

Technologie sztucznej inteligencji (AI), w szczególności Transformery Wizji (ViTs), wykazały ogromny potencjał w identyfikowaniu i klasyfikowaniu obiektów na obrazach. Jednak ich praktyczne zastosowanie było ograniczone przez dwa znaczące wyzwania: wysokie wymagania obliczeniowe i brak przejrzystości w podejmowaniu decyzji. Teraz, grupa badaczy opracowała przełomowe rozwiązanie: nową metodologię znaną jako “Patch-to-Cluster attention” (PaCa). PaCa ma na celu poprawienie możliwości ViT w identyfikowaniu obiektów na obrazach, klasyfikowaniu i segmencie, jednocześnie rozwiązując długoletnie problemy z wymaganiami obliczeniowymi i klarownością decyzji.

Pokonywanie Wyzwań ViT: Spojjrzenie na Nowe Rozwiązanie

Transformery, dzięki swoim wyjątkowym możliwościom, są jednymi z najbardziej wpływowych modeli w świecie AI. Możliwości tych modeli zostały rozszerzone na dane wizualne za pomocą ViT, klasy transformerów szkolonych z danymi wizualnymi. Pomimo ogromnego potencjału oferowanego przez ViT w interpretowaniu i rozumieniu obrazów, zostały one powstrzymane przez dwa główne problemy.

Po pierwsze, ze względu na naturę obrazów zawierających ogromne ilości danych, ViT wymagają znacznej mocy obliczeniowej i pamięci. Ta złożoność może być przytłaczająca dla wielu systemów, szczególnie podczas obsługi obrazów o wysokiej rozdzielczości. Po drugie, proces podejmowania decyzji wewnątrz ViT jest często skomplikowany i nieprzejrzysty. Użytkownicy mają trudności z zrozumieniem, jak ViT różnicują między różnymi obiektami lub cechami na obrazie, co jest kluczowe dla wielu aplikacji.

Jednak innowacyjna metodologia PaCa oferuje rozwiązanie obu tych wyzwań. “Rozwiązujemy wyzwanie związane z wymaganiami obliczeniowymi i pamięciowymi, używając technik klasterowania, które pozwalają architekturze transformera lepiej identyfikować i koncentrować się na obiektach na obrazie”, wyjaśnia Tianfu Wu, autor pracy i associate professor w dziedzinie inżynierii elektrycznej i komputerowej na Uniwersytecie Stanu Karolina Północna.

Użycie technik klasterowania w PaCa drastycznie redukuje wymagania obliczeniowe, zmieniając problem z procesu kwadratowego w proces liniowy. Wu wyjaśnia dalej proces, “Poprzez klasterowanie, możemy to uczynić liniowym procesem, gdzie każda mniejsza jednostka musi być porównana tylko z określoną liczbą klastrów”.

Klasterowanie służy również do wyjaśnienia procesu podejmowania decyzji w ViT. Proces tworzenia klastrów ujawnia, jak ViT decyduje, które cechy są ważne w grupowaniu sekcji danych obrazu. Ponieważ AI tworzy tylko ograniczoną liczbę klastrów, użytkownicy mogą łatwo zrozumieć i zbadać proces podejmowania decyzji, znacznie poprawiając interpretowalność modelu.

Metodologia PaCa Przewyższa Inne Najnowsze ViT

Przez kompleksowe testy, badacze stwierdzili, że metodologia PaCa przewyższa inne ViT na kilku polach. Wu wyjaśnia, “Stwierdziliśmy, że PaCa przewyższa SWin i PVT we wszystkim”. Proces testowy ujawnił, że PaCa wyróżnia się w klasyfikowaniu i identyfikowaniu obiektów na obrazach oraz w segmencie, efektywnie wyznaczając granice obiektów na obrazach. Ponadto okazało się, że jest bardziej efektywne w czasie, wykonując zadania szybciej niż inne ViT.

Zachęceni sukcesem PaCa, zespół badawczy planuje dalej rozwijać tę metodologię, szkoląc ją na większych zbiorach danych. W ten sposób mają nadzieję posunąć granice tego, co jest obecnie możliwe z AI opartej na obrazach.

Artykuł, “PaCa-ViT: Learning Patch-to-Cluster Attention in Vision Transformers“, zostanie przedstawiony na nadchodzącej Konferencji IEEE/CVF Computer Vision and Pattern Recognition. Jest to ważny kamień milowy, który może otworzyć drogę do bardziej efektywnych, przejrzystych i dostępnych systemów AI.