Искусственный интеллект

Трансформеры Видения Преодолевают Вызовы с Новым Методом ‘Патч-кластерного Внимания’

Published June 5, 2023

Updated April 4, 2026

Alex McFarland

Технологии искусственного интеллекта (ИИ), в частности, Трансформеры Видения (ViTs), показали огромный потенциал в своей способности идентифицировать и категоризировать объекты на изображениях. Однако их практическое применение было ограничено двумя значительными вызовами: высокими требованиями к вычислительной мощности и отсутствием прозрачности в процессе принятия решений. Теперь группа исследователей разработала прорывное решение: новую методологию, известную как “Патч-кластерное внимание” (PaCa). PaCa направлена на повышение возможностей ViTs в идентификации, классификации и сегментации объектов на изображениях, а также на решение давних проблем вычислительных требований и ясности принятия решений.

Решение Вызовов ViTs: Взгляд на Новое Решение

Трансформеры, благодаря своим исключительным возможностям, являются одними из наиболее влиятельных моделей в мире ИИ. Мощь этих моделей была расширена на визуальные данные через ViTs, класс трансформеров, обучаемых на визуальных входных данных. Несмотря на огромный потенциал, который предлагают ViTs в интерпретации и понимании изображений, они были сдержаны парой основных проблем.

Во-первых, из-за природы изображений, содержащих огромное количество данных, ViTs требуют значительной вычислительной мощности и памяти. Эта сложность может быть подавляющей для многих систем, особенно при обработке изображений высокого разрешения. Во-вторых, процесс принятия решений внутри ViTs часто запутан и не прозрачен. Пользователям трудно понять, как ViTs различают различные объекты или особенности на изображении, что имеет решающее значение для многих приложений.

Однако инновационная методология PaCa предлагает решение обеим этим проблемам. “Мы решаем проблему, связанную с вычислительными и памяти требованиями, используя методы кластеризации, которые позволяют архитектуре трансформера лучше идентифицировать и сосредоточиться на объектах на изображении”, объясняет Тяньфу У, соответствующий автор статьи о работе и ассоциированный профессор электротехники и компьютерных наук в Университете штата Северная Каролина.

Использование методов кластеризации в PaCa радикально снижает вычислительные требования, превращая проблему из квадратичного процесса в управляемый линейный. У进一步 объясняет процесс, “С помощью кластеризации мы можем сделать этот процесс линейным, где каждая меньшая единица должна быть сравнена только с предопределенным количеством кластеров”.

Кластеризация также служит для прояснения процесса принятия решений в ViTs. Процесс формирования кластеров показывает, как ViT решает, какие особенности важны для группировки секций изображения. Поскольку ИИ создает только ограниченное количество кластеров, пользователи могут легко понять и изучить процесс принятия решений, значительно улучшая интерпретируемость модели.

Методология PaCa Превосходит Другие Трансформеры Видения Состояния-искусства

Через всестороннее тестирование исследователи обнаружили, что методология PaCa превосходит другие ViTs по нескольким направлениям. У объясняет, “Мы обнаружили, что PaCa превосходит SWin и PVT во всех отношениях”. Процесс тестирования показал, что PaCa превосходил в классификации и идентификации объектов на изображениях и сегментации, эффективно очерчивая границы объектов на изображениях. Кроме того, было обнаружено, что это более экономично по времени, выполняя задачи быстрее, чем другие ViTs.

Поощренные успехом PaCa, команда исследователей стремится дальнейшему развитию, обучая его на более крупных базовых наборах данных. Таким образом, они надеются расширить границы того, что сейчас возможно с помощью ИИ на основе изображений.

Статья “PaCa-ViT: Обучение Патч-кластерному Вниманию в Трансформерах Видения” будет представлена на предстоящей IEEE/CVF Конференции по Компьютерному Зрению и Распознаванию Узоров. Это важный этап, который может проложить путь для более эффективных, прозрачных и доступных систем ИИ.