Kunstmatige intelligentie
EfficientViT: GeheugenEfficiënte Visie-Transformer voor High-Resolution Computer Vision

Vanwege hun hoge modelcapaciteit hebben Vision Transformer-modellen de afgelopen tijd veel succes geboekt. Ondanks hun prestaties hebben visie-transformatormodellen één groot nadeel: hun opmerkelijke berekeningskracht komt met hoge berekeningskosten, en dat is de reden waarom visie-transformatoren niet de eerste keuze zijn voor real-time-toepassingen. Om dit probleem aan te pakken, lanceerde een groep ontwikkelaars EfficientViT, een familie van high-speed visie-transformatoren.
Toen de ontwikkelaars aan EfficientViT werkten, merkten ze dat de snelheid van de huidige transformatormodellen vaak wordt beperkt door inefficiënte geheugenoperaties, vooral element-wijze functies en tensor-herstructurering in MHSA of Multi-Head Self Attention-netwerk. Om deze inefficiënte geheugenoperaties aan te pakken, hebben de ontwikkelaars van EfficientViT gewerkt aan een nieuwe bouwsteen met een sandwichlay-out, d.w.z. het EfficientViT-model maakt gebruik van een enkele geheugenbeperkte Multi-Head Self Attention-laag tussen efficiënte FFN-lagen (feed forward network) die helpen bij het verbeteren van de geheugenefficiëntie en ook het verbeteren van de algehele kanaalcommunicatie. Bovendien ontdekt het model dat aandachtkaarten vaak over hoofden heen veel overeenkomsten vertonen, wat leidt tot computationele redundantie. Om de redundantieproblematiek aan te pakken, presenteert het EfficientViT-model een cascaded group attention-module die aandachtshoofden voedt met verschillende delen van de volledige functie. De methode helpt niet alleen bij het besparen van computationele kosten, maar verbetert ook de aandachtsdiversiteit van het model.
Uitgebreide experimenten die zijn uitgevoerd op het EfficientViT-model in verschillende scenario’s, geven aan dat EfficientViT bestaande efficiënte modellen voor computer vision overtreft, terwijl het een goede balans tussen nauwkeurigheid en snelheid behaalt. Laten we dus een diepere duik nemen en het EfficientViT-model in iets meer detail verkennen.
Een Inleiding tot Vision Transformatoren en EfficientViT
Vision Transformatoren blijven een van de meest populaire kaders in de computer vision-industrie, omdat ze een superieure prestatie en hoge computationele mogelijkheden bieden. Echter, met het constant verbeteren van de nauwkeurigheid en prestaties van de visie-transformatormodellen, nemen de operationele kosten en computationele overhead ook toe. Bijvoorbeeld, huidige modellen die state-of-the-art-prestaties op ImageNet-datasets zoals SwinV2 en V-MoE bieden, gebruiken respectievelijk 3B en 14,7B parameters. De enorme omvang van deze modellen, gecombineerd met de computationele kosten en vereisten, maken ze praktisch ongeschikt voor real-time-apparaten en -toepassingen.
Het EfficientNet-model heeft als doel om te onderzoeken hoe de prestaties van visie-transformatormodellen kunnen worden verbeterd en de principes te vinden die ten grondslag liggen aan het ontwerpen van efficiënte en effectieve transformatoren op basis van architectuur. Het EfficientViT-model is gebaseerd op bestaande visie-transformatiekaders zoals Swim en DeiT en analyseert drie essentiële factoren die de interferentiesnelheid van modellen beïnvloeden, waaronder computationele redundantie, geheugenaccess en parametergebruik. Bovendien merkt het model op dat de snelheid van visie-transformatormodellen geheugenbeperkt is, wat betekent dat de volledige benutting van de rekenkracht in CPU’s/GPU’s wordt beperkt of beperkt door geheugenaccessvertraging, wat een negatief effect heeft op de runtime-snelheid van de transformatoren. Element-wijze functies en tensor-herstructurering in MHSA of Multi-Head Self Attention-netwerk zijn de meest geheugen-inefficiënte operaties. Het model merkt verder op dat het optimaliseren van het verhoudingsgetal tussen FFN (feed forward network) en MHSA kan helpen bij het aanzienlijk verminderen van de geheugenaccesstijd zonder de prestaties te beïnvloeden. Echter, het model merkt ook enige redundantie in de aandachtkaarten op als gevolg van de neiging van aandachtshoofden om soortgelijke lineaire projecties te leren.
… (rest of the translation remains the same, following the exact structure and format as the original)












