Свяжитесь с нами:

Преобразователи Vision преодолевают трудности с помощью нового метода «Patch-to-Cluster Attention»

Искусственный интеллект

Преобразователи Vision преодолевают трудности с помощью нового метода «Patch-to-Cluster Attention»

mm

Технологии искусственного интеллекта (ИИ), в частности, Vision Transformers (ViT), продемонстрировали огромные перспективы в области распознавания и категоризации объектов на изображениях. Однако их практическое применение ограничивалось двумя существенными проблемами: высокими требованиями к вычислительной мощности и недостаточной прозрачностью процесса принятия решений. Группа исследователей разработала прорывное решение: новую методологию, известную как «Внимание от патча к кластеру» (Patch-to-Cluster attention, PaCa). PaCa направлена ​​на расширение возможностей ViT в области распознавания, классификации и сегментации объектов на изображениях, одновременно решая давние проблемы, связанные с вычислительными требованиями и прозрачностью процесса принятия решений.

Решение проблем ViT: Взгляд на новое решение

Благодаря своим превосходным возможностям, трансформеры являются одной из самых влиятельных моделей в мире искусственного интеллекта. Возможности этих моделей были распространены на визуальные данные благодаря ViT — классу трансформеров, обучаемых с помощью визуальных входных данных. Несмотря на огромный потенциал ViT в интерпретации и понимании изображений, их развитие сдерживается рядом серьёзных проблем.

Во-первых, из-за природы изображений, содержащих огромные объемы данных, ViT требуют значительных вычислительных мощностей и памяти. Эта сложность может оказаться непосильной для многих систем, особенно при работе с изображениями высокого разрешения. Во-вторых, процесс принятия решений в ViT часто запутан и непрозрачен. Пользователям трудно понять, как ViT различают различные объекты или функции на изображении, что имеет решающее значение для многих приложений.

Однако инновационная методология PaCa предлагает решение обеих этих проблем. «Мы решаем проблему, связанную с требованиями к вычислительным ресурсам и памяти, с помощью методов кластеризации, которые позволяют архитектуре преобразователя лучше идентифицировать объекты на изображении и фокусироваться на них», — объясняет Тианфу Ву, автор статьи о работе и доцент Электротехника и вычислительная техника в Университете штата Северная Каролина.

Использование методов кластеризации в PaCa радикально снижает вычислительные требования, превращая задачу из квадратичного процесса в управляемый линейный. У далее объясняет процесс: «Благодаря кластеризации мы можем сделать этот процесс линейным, где каждый меньший элемент нужно сравнивать только с заданным количеством кластеров».

Кластеризация также помогает прояснить процесс принятия решений в ViT. Процесс формирования кластеров показывает, как ViT определяет, какие признаки важны при группировке фрагментов изображения. Поскольку ИИ создаёт лишь ограниченное количество кластеров, пользователи могут легко понять и изучить процесс принятия решений, что значительно повышает интерпретируемость модели.

Методология PaCa превосходит другие современные ViTs

В результате всестороннего тестирования исследователи обнаружили, что методология PaCa превосходит другие ViT по нескольким параметрам. Ву уточняет: «Мы обнаружили, что PaCa превосходит SWin и PVT во всех отношениях». Процесс тестирования показал, что PaCa преуспел в классификации и идентификации объектов на изображениях и сегментации, эффективно очерчивая границы объектов на изображениях. Кроме того, было обнаружено, что он более экономичен по времени, выполняя задачи быстрее, чем другие ViT.

Вдохновленная успехом PaCa, исследовательская группа стремится к дальнейшему развитию, обучая его работе с более крупными базовыми наборами данных. Поступая так, они надеются раздвинуть границы того, что в настоящее время возможно с помощью искусственного интеллекта на основе изображений.

Исследовательская работа, «PaCa-ViT: обучение взаимодействию между патчами и кластерами в трансформерах машинного зрения», будет представлен на предстоящем Конференция IEEE/CVF по компьютерному зрению и распознаванию образов. Это важная веха, которая может проложить путь к более эффективным, прозрачным и доступным системам искусственного интеллекта.

Алекс МакФарланд — журналист и писатель, занимающийся искусственным интеллектом. Он сотрудничал с многочисленными стартапами и публикациями в области искусственного интеллекта по всему миру.