csonk A Vision Transformers legyőzi a kihívásokat az új „patch-to-cluster Attention” módszerrel – Unite.AI
Kapcsolatba velünk

Mesterséges Intelligencia

A Vision Transformers legyőzi a kihívásokat az új „patch-to-cluster Attention” módszerrel

Közzététel:

 on

A mesterséges intelligencia (AI) technológiák, különösen a Vision Transformers (ViTs) óriási ígéretet tettek a képeken lévő objektumok azonosítására és kategorizálására vonatkozó képességükben. Gyakorlati alkalmazásukat azonban két jelentős kihívás korlátozta: a magas számítási teljesítményigény és a döntéshozatal átláthatóságának hiánya. Most egy kutatócsoport áttörést jelentő megoldást fejlesztett ki: egy új módszertant, amelyet „PaCa-to-Cluster figyelem” néven ismernek. A PaCa célja, hogy javítsa a ViT-ek képességeit a képobjektumok azonosítása, osztályozása és szegmentálása terén, ugyanakkor megoldja a számítási igények és a döntéshozatal egyértelműsége régóta fennálló problémáit.

A ViTs kihívásainak kezelése: Bepillantás az új megoldásba

A transzformátorok kiváló képességeiknek köszönhetően a mesterséges intelligencia világának legbefolyásosabb modelljei közé tartoznak. Ezeknek a modelleknek a teljesítményét a vizuális adatokra is kiterjesztették a ViT-eken keresztül, a transzformátorok egy olyan osztályán keresztül, amelyek vizuális bemenetekkel vannak kiképezve. Annak ellenére, hogy a ViT-ek óriási lehetőségeket kínálnak a képek értelmezésében és megértésében, néhány nagy probléma visszatartotta őket.

Először is, a hatalmas mennyiségű adatot tartalmazó képek természetéből adódóan a ViT-k jelentős számítási teljesítményt és memóriát igényelnek. Ez a bonyolultság sok rendszer számára elsöprő lehet, különösen nagy felbontású képek kezelésekor. Másodszor, a ViT-eken belüli döntéshozatali folyamat gyakran bonyolult és átláthatatlan. A felhasználók nehezen tudják megérteni, hogy a ViT-ek miként tesznek különbséget a különböző objektumok vagy jellemzők között egy képen, ami számos alkalmazás számára kulcsfontosságú.

Az innovatív PaCa módszertan azonban mindkét kihívásra megoldást kínál. „A számítási és memóriaigényekkel kapcsolatos kihívásokat klaszterezési technikák alkalmazásával kezeljük, amelyek lehetővé teszik a transzformátor-architektúra számára, hogy jobban azonosítsa a képen lévő objektumokat, és azokra fókuszáljon” – magyarázza Tianfu Wu, a munkáról szóló cikk szerzője és a kutatás egyik docense. Elektromos és számítástechnikai mérnök az Észak-Karolinai Állami Egyetemen.

A klaszterezési technikák használata a PaCa-ban drasztikusan csökkenti a számítási követelményeket, így a probléma kvadratikus folyamatból kezelhető lineárissá válik. Wu tovább magyarázza a folyamatot: „A klaszterezéssel ezt lineáris folyamattá tehetjük, ahol minden kisebb egységet csak egy előre meghatározott számú klaszterhez kell hasonlítani.”

A klaszterezés a döntéshozatali folyamat tisztázását is szolgálja a ViT-ekben. A klaszterek kialakításának folyamata megmutatja, hogy a ViT hogyan dönti el, hogy mely jellemzők fontosak a képadatok szakaszainak csoportosításában. Mivel az AI csak korlátozott számú klasztert hoz létre, a felhasználók könnyen megérthetik és megvizsgálhatják a döntéshozatali folyamatot, ami jelentősen javítja a modell értelmezhetőségét.

A PaCa módszertana felülmúlja a többi korszerű ViT-t

Átfogó tesztelés során a kutatók azt találták, hogy a PaCa módszertana több szempontból is felülmúlja a többi ViT-t. Wu kifejti: „Azt találtuk, hogy a PaCa minden tekintetben jobban teljesített, mint az SWin és a PVT.” A tesztelési folyamat során kiderült, hogy a PaCa kiválóan teljesített a képeken belüli objektumok osztályozásában és azonosításában, valamint a szegmentálásban, hatékonyan körvonalazva az objektumok határait a képeken. Ezenkívül azt találták, hogy időhatékonyabb, gyorsabban hajtja végre a feladatokat, mint a többi ViT.

A PaCa sikerén felbuzdulva a kutatócsoport célja a fejlesztés további fejlesztése azáltal, hogy nagyobb alapadatkészletekre tanítja. Ezáltal azt remélik, hogy feszegetik a képalapú mesterségesintelligencia által jelenleg elérhető határokat.

A kutatási cikk „PaCa-ViT: Patch-to-Cluster Attention tanulása Vision Transformersben”, a közeljövőben kerül bemutatásra IEEE/CVF konferencia a számítógépes látásról és mintafelismerésről. Ez egy fontos mérföldkő, amely egyengetheti az utat a hatékonyabb, átláthatóbb és hozzáférhetőbb AI-rendszerek felé.

Alex McFarland mesterséges intelligencia újságíró és író, aki a mesterséges intelligencia legújabb fejleményeit vizsgálja. Számos AI startup vállalkozással és publikációval működött együtt világszerte.