Штучний інтелект

EfficientViT: Пам’яті-Ефективний Візуальний Трансформер для Високорозірневого Комп’ютерного Зору

mm

Через їхню високу ємність моделі, Моделі Візуального Трансформера мали великий успіх в останні часи. Незважаючи на їхню продуктивність, моделі візуального трансформера мають одну велику ваду: їхня видатна обчислювальна потужність супроводжується високими обчислювальними витратами, і це причина, чому візуальні трансформери не є першим вибором для реального часу застосування. Для вирішення цієї проблеми, група розробників запустила EfficientViT, сім’ю високошвидкісних візуальних трансформерів. 

Під час роботи над EfficientViT, розробники спостерігали, що швидкість поточних моделей трансформера часто обмежується неефективними операціями з пам’яттю, особливо елементно-вісьовими функціями та перетворенням тензорів у мережі MHSA або Багатоголового Самообачення. Для вирішення цих неефективних операцій з пам’яттю, розробники EfficientViT працювали над новим будівельним блоком, використовуючи композицію з пісочним складом, тобто модель EfficientViT використовує один пам’яті-обмежений шар Багатоголового Самообачення між ефективними шарами FFN, що допомагає покращити ефективність пам’яті та підвищити загальну комунікацію каналів. Крім того, модель також виявила, що карти уваги часто мають високу схожість між головами, що призводить до обчислювальної надмірності. Для вирішення проблеми надмірності, модель EfficientViT пропонує каскадний модуль групової уваги, який годує голови уваги різними частинами повної особливості. Метод не тільки допомагає заощаджувати обчислювальні витрати, але також покращує різноманітність уваги моделі. 

Комплексні експерименти, проведені на моделі EfficientViT у різних сценаріях, вказують на те, що EfficientViT перевершує існуючі ефективні моделі для комп’ютерного зору при збереженні хорошого балансу між точністю та швидкістю. Тому давайте глибше зануримося та дослідимо модель EfficientViT у дещо більшій глибині. 

Вступ до Візуальних Трансформерів і EfficientViT

Візуальні Трансформери залишаються однією з найпопулярніших рамок у галузі комп’ютерного зору, оскільки вони пропонують вищу продуктивність та високу обчислювальну потужність. Однак з постійним покращенням точності та продуктивності моделей візуального трансформера, операційні витрати та обчислювальна надмірність також збільшуються. Наприклад, поточні моделі, відомі тим, що забезпечують найвищу продуктивність на наборі даних ImageNet, такі як SwinV2 та V-MoE, використовують 3B та 14,7B параметрів відповідно. Сам розмір цих моделей, поєднаний з обчислювальними витратами та вимогами, робить їх практично непридатними для пристроїв та застосунків реального часу. 

Модель EfficientNet спрямована на дослідження того, як покращити продуктивність моделей візуального трансформера та знаходження принципів, пов’язаних з проектуванням ефективних та ефективних архітектур трансформера. Модель EfficientViT базується на існуючих рамках візуального трансформера, таких як Swim та DeiT, і аналізує три основні фактори, які впливають на швидкість моделей, включаючи обчислювальну надмірність, доступ до пам’яті та використання параметрів. Крім того, модель спостерігає, що швидкість моделей візуального трансформера обмежена пам’яттю, тобто повне використання обчислювальної потужності процесорів/графічних процесорів обмежене або заблоковане затримкою доступу до пам’яті, що призводить до негативного впливу на швидкість виконання трансформерів. Елементно-вісьові функції та перетворення тензорів у мережі MHSA або Багатоголового Самообачення є найбільш пам’яті-неефективними операціями. Модель далі спостерігає деяку надмірність у картах уваги внаслідок схильності голів уваги до вивчення схожих лінійних проєкцій. 

… (the rest of the translation remains the same, following the exact structure and format as the original)

Інженер за професією, письменник серцем. Kunal є технічним письменником з глибокою любов'ю та розумінням AI і ML, присвяченим спрощенню складних концепцій у цих галузях завдяки його цікавим та інформативним документам.