Штучний інтелект

Трансформери бачення подолávají виклики завдяки новому методу «Увага кластеру за допомогою патчів»

Published June 5, 2023

Updated April 4, 2026

Alex McFarland

Технології штучного інтелекту (AI), зокрема Трансформери бачення (ViTs), показали великий потенціал у своїй здатності розпізнавати та класифікувати об’єкти на зображеннях. Однак їхнє практичне застосування обмежувалося двома значними викликами: високими вимогами до обчислювальної потужності та відсутністю прозорості у процесі прийняття рішень. Тепер група дослідників розробила проривне рішення: нову методологію, відому як «Увага кластеру за допомогою патчів» (PaCa). PaCa спрямована на підвищення можливостей ViTs у розпізнаванні об’єктів на зображеннях, класифікації та сегментації, одночасно вирішуючи довготривалі проблеми обчислювальних вимог та ясності прийняття рішень.

Вирішення викликів ViTs: Огляд нового рішення

Трансформери, завдяки своїм високим можливостям, є одними з найбільш впливових моделей у світі AI. Потужність цих моделей була розширена на візуальні дані через ViTs, клас трансформерів, який тренується на візуальних вхідних даних. Незважаючи на величезний потенціал, який пропонують ViTs у інтерпретації та розумінні зображень, вони були обмежені двома основними проблемами.

По-перше, через те, що зображення містять величезну кількість даних, ViTs вимагають суттєвої обчислювальної потужності та пам’яті. Ця складність може бути ошеломлюючою для багатьох систем, особливо при обробці високорозрібних зображень. По-друге, процес прийняття рішень у ViTs часто є заплутаним та не прозорим. Користувачам важко зрозуміти, як ViTs розрізняють різні об’єкти чи особливості на зображенні, що є важливим для багатьох застосунків.

Однак інноваційна методологія PaCa пропонує рішення обидвох цих викликів. «Ми вирішуємо проблему, пов’язану з обчислювальними та пам’ятними вимогами, використовуючи методи кластеризації, які дозволяють архітектурі трансформера краще розпізнавати та зосереджуватися на об’єктах на зображенні», пояснює Тяньфу У, відповідальний автор статті про цю роботу та асоційований професор електротехніки та комп’ютерних наук університету Північної Кароліни.

Використання методів кластеризації в PaCa суттєво знижує обчислювальні вимоги, перетворюючи проблему з квадратичного процесу на керований лінійний. У далі пояснює процес: «Кластеризуючи, ми робимо цей процес лінійним, де кожна менша одиниця потребує порівняння лише з попередньо визначеною кількістю кластерів».

Кластеризація також служить для уточнення процесу прийняття рішень у ViTs. Процес формування кластерів показує, як ViT вирішує, які особливості важливі для групування секцій зображення. Оскільки AI створює лише обмежену кількість кластерів, користувачам легко зрозуміти та вивчити процес прийняття рішень, суттєво покращуючи інтерпретованість моделі.

Методологія PaCa перевершує інші сучасні ViTs

Через комплексне тестування дослідники виявили, що методологія PaCa перевершує інші ViTs у кількох аспектах. У далі пояснює: «Ми виявили, що PaCa перевершує SWin і PVT у всіх аспектах». Процес тестування показав, що PaCa перевершує у класифікації та розпізнаванні об’єктів на зображеннях та сегментації, ефективно окреслюючи межі об’єктів на зображеннях. Крім того, було виявлено, що вона більш економічна за часом, виконуючи завдання швидше, ніж інші ViTs.

Заохочені успіхом PaCa, команда дослідників планує подальшу розробку шляхом навчання її на більших базових наборах даних. Роблячи це, вони сподіваються розширити межі того, що зараз можливе з AI, заснованою на зображеннях.

Стаття «PaCa-ViT: Навчання уваги кластеру за допомогою патчів у трансформерах бачення» буде представлена на майбутній Конференції IEEE/CVF з комп’ютерного бачення та розпізнавання образів. Це важливий етап, який може прокласти шлях для більш ефективних, прозорих та доступних систем AI.