Umělá inteligence

Transformery vidění překonávají výzvy s novou metodou “Patch-to-Cluster pozornost”

Published June 5, 2023

Updated April 4, 2026

Alex McFarland

Umělé inteligence (AI) technologie, zejména Transformery vidění (ViTs), ukázaly enorme slib v jejich schopnosti identifikovat a kategorizovat objekty v obrazech. Nicméně, jejich praktické použití bylo omezeno dvěma významnými výzvami: vysokými požadavky na výpočetní výkon a nedostatkem transparentnosti v rozhodování. Nyní, skupina výzkumníků vyvinula průlomové řešení: novou metodologii známou jako “Patch-to-Cluster pozornost” (PaCa). PaCa má za cíl zlepšit schopnosti ViTs v identifikaci objektů v obrazech, klasifikaci a segmentaci, zatímco současně řeší dlouhodobé problémy s výpočetními nároky a transparentností rozhodování.

Řešení výzev ViTs: Náhled na nové řešení

Transformery, díky svým vynikajícím schopnostem, jsou mezi nejvlivnějšími modely v AI světě. Síla těchto modelů byla rozšířena na vizuální data prostřednictvím ViTs, třídy transformerů, které jsou trénovány s vizuálními vstupy. Navzdory enormnímu potenciálu, který ViTs nabízejí v interpretaci a porozumění obrazům, byly zadrženy dvěma hlavními problémy.

První, kvůli povaze obrazů, které obsahují velké množství dat, ViTs vyžadují podstatnou výpočetní sílu a paměť. Tato složitost může být přehlcující pro mnoho systémů, zejména při zpracování obrazů s vysokým rozlišením. Druhé, proces rozhodování uvnitř ViTs je často zamlžený a neprůhledný. Uživatelé mají obtížné pochopit, jak ViTs rozlišují mezi různými objekty nebo rysy v obraze, což je zásadní pro mnoho aplikací.

Nicméně, inovativní metodologie PaCa nabízí řešení pro obě tyto výzvy. “Řešíme výzvu související s výpočetními a paměťovými nároky pomocí technik clusterizace, které umožňují transformerové architektuře lépe identifikovat a soustředit se na objekty v obraze,” vysvětluje Tianfu Wu, hlavní autor článku o této práci a asociativní profesor elektrotechniky a počítačového inženýrství na Univerzitě Severní Karolíny.

Použití technik clusterizace v PaCa dramaticky snižuje výpočetní nároky, mění problém z kvadratického procesu na zvládnutelný lineární proces. Wu dále vysvětluje proces, “Clusterizací jsme schopni tento proces učinit lineárním, kde každá menší jednotka potřebuje být porovnávána pouze s předem stanoveným počtem clusterů.”

Clusterizace také slouží ke zjasnění procesu rozhodování u ViTs. Proces tvorby clusterů odhaluje, jak ViT rozhoduje, které rysy jsou důležité pro seskupování částí obrazových dat. Protože AI vytváří pouze omezený počet clusterů, uživatelé mohou snadno pochopit a prozkoumat proces rozhodování, což významně zlepšuje interpretovatelnost modelu.

Metodologie PaCa překonává ostatní špičkové ViTs

Prostřednictvím komplexního testování, výzkumníci zjistili, že metodologie PaCa překonává ostatní ViTs v několika směrech. Wu vysvětluje, “Zjistili jsme, že PaCa překonala SWin a PVT ve všech ohledech.” Testovací proces odhalil, že PaCa vyniká v klasifikaci a identifikaci objektů v obrazech a segmentaci, efektivně vymezuje hranice objektů v obrazech. Kromě toho, bylo zjištěno, že je časově efektivnější, plní úkoly rychleji než ostatní ViTs.

Povzbuzeni úspěchem PaCa, výzkumný tým má v úmyslu dále rozvíjet jeho vývoj školením na větších základních datech. Tím doufají posunout hranice toho, co je目前 možné s obrazovými AI.

Výzkumná práce, “PaCa-ViT: Učení Patch-to-Cluster pozornosti v Transformerech vidění“, bude prezentována na nadcházející IEEE/CVF Konferenci o počítačovém vidění a rozpoznávání vzorců. Je to důležitý milník, který by mohl otevřít cestu pro efektivnější, transparentnější a přístupnější AI systémy.