Искусственный интеллект
DiffSeg : Ненадзорная сегментация с нулевым выстрелом с помощью стабильной диффузии

Одной из основных проблем в моделях, основанных на компьютерном зрении, является генерация высококачественных масок сегментации. Недавние достижения в области крупномасштабной надзорной тренировки позволили осуществлять сегментацию с нулевым выстрелом на различных стилях изображений. Кроме того, ненадзорная тренировка упростила сегментацию без необходимости обширных аннотаций. Несмотря на эти разработки, создание компьютерной модели, способной сегментировать все в настройке с нулевым выстрелом без аннотаций, остается сложной задачей. Семантическая сегментация, фундаментальная концепция в моделях компьютерного зрения, включает в себя разделение изображения на более мелкие регионы с единообразной семантикой. Этот метод закладывает основу для многочисленных последующих задач, таких как медицинская визуализация, редактирование изображений, автономное вождение и многое другое.
Чтобы продвинуть разработку моделей компьютерного зрения, важно, чтобы сегментация изображений не была ограничена фиксированным набором данных с ограниченными категориями. Вместо этого она должна действовать как универсальная основная задача для различных других приложений. Однако высокая стоимость сбора меток на пиксельной основе представляет значительную проблему, ограничивающую прогресс методов сегментации с нулевым выстрелом и надзорной сегментации, которые требуют отсутствия аннотаций и предварительного доступа к целевому объекту. В этой статье мы обсудим, как слои само-внимания в стабильных диффузионных моделях могут облегчить создание модели, способной сегментировать любой вход в настройке с нулевым выстрелом, даже без надлежащих аннотаций. Эти слои само-внимания по своей сути понимают понятия объектов, изученные предварительно обученной стабильной диффузионной моделью.
DiffSeg : Улучшенный алгоритм сегментации с нулевым выстрелом
Семантическая сегментация – это процесс, который делит изображение на различные секции, каждая из которых имеет схожую семантику. Этот метод формирует основу для многочисленных последующих задач. Традиционно задачи компьютерного зрения с нулевым выстрелом полагались на надзорную семантическую сегментацию, используя крупные наборы данных с аннотированными и помеченными категориями. Однако реализация ненадзорной семантической сегментации в настройке с нулевым выстрелом остается проблемой. Хотя традиционные методы надзора эффективны, их стоимость меток на пиксельной основе часто является запретительной, подчеркивая необходимость разработки ненадзорных методов сегментации в менее ограничительной настройке с нулевым выстрелом, где модель не требует аннотированных данных или предварительных знаний о данных.
Чтобы устранить это ограничение, DiffSeg вводит новую стратегию пост-обработки, использующую возможности стабильной диффузионной модели для создания универсальной модели сегментации, способной к нулевому выстрелу на любом изображении. Стабильные диффузионные модели доказали свою эффективность в генерации изображений высокого разрешения на основе условий подсказки. Для сгенерированных изображений эти модели могут производить маски сегментации с использованием соответствующих текстовых подсказок, обычно включающих только доминирующие объекты переднего плана.
Напротив, DiffSeg – это новаторский метод пост-обработки, создающий маски сегментации, используя тензоры внимания из слоев само-внимания в диффузионной модели. Алгоритм DiffSeg состоит из трех основных компонентов: итеративного слияния внимания, агрегации внимания и подавления не-максимума, как показано на следующем изображении.

Алгоритм DiffSeg сохраняет визуальную информацию на нескольких разрешениях, агрегируя 4D тензоры внимания с пространственной последовательностью и используя итеративный процесс слияния путем выборки якорных точек. Эти якоря служат стартовой площадкой для слияния масок внимания с одинаковыми якорями объектов, которые в конечном итоге поглощаются. Фреймворк DiffSeg контролирует процесс слияния с помощью метода расхода КЛ для измерения сходства между двумя картами внимания.
По сравнению с ненадзорными методами сегментации на основе кластеризации, разработчикам не нужно указывать количество кластеров заранее в алгоритме DiffSeg, и даже без каких-либо предварительных знаний алгоритм DiffSeg может производить сегментацию без использования дополнительных ресурсов. В целом, алгоритм DiffSeg – это ” новый ненадзорный и нулевой метод сегментации, который использует предварительно обученную стабильную диффузионную модель и может сегментировать изображения без каких-либо дополнительных ресурсов или предварительных знаний. “
DiffSeg : Основные концепции
DiffSeg – это новаторский алгоритм, который основан на знаниях диффузионных моделей, ненадзорной сегментации и сегментации с нулевым выстрелом.
Диффузионные модели
Алгоритм DiffSeg основан на знаниях, полученных из предварительно обученных диффузионных моделей. Диффузионные модели – одна из наиболее популярных генеративных фреймворков для моделей компьютерного зрения, и они изучают прямой и обратный процесс диффузии от образца изотропического гауссовского шума до генерации изображения. Стабильная диффузия – это наиболее популярная разновидность диффузионных моделей и используется для выполнения широкого спектра задач, включая надзорную сегментацию, классификацию с нулевым выстрелом, семантическую корреспонденцию, метко-эффективную сегментацию и открытую сегментацию словаря. Однако единственной проблемой с диффузионными моделями является то, что они полагаются на высокоразмерные визуальные особенности для выполнения этих задач и часто требуют дополнительной тренировки, чтобы полностью использовать эти особенности.
Ненадзорная сегментация
Алгоритм DiffSeg тесно связан с ненадзорной сегментацией, современной практикой ИИ, целью которой является генерация плотных масок сегментации без использования каких-либо аннотаций. Однако для обеспечения хорошей производительности модели ненадзорной сегментации все же требуются некоторые предварительные ненадзорные тренировки на целевом наборе данных. Ненадзорная сегментация на основе фреймворков ИИ может быть классифицирована на две категории: кластеризация с использованием предварительно обученных моделей и кластеризация на основе инвариантности. В первой категории фреймворки используют дискриминационные особенности, изученные предварительно обученными моделями, для генерации масок сегментации, тогда как фреймворки, относящиеся к второй категории, используют общий алгоритм кластеризации, который оптимизирует взаимную информацию между двумя изображениями для сегментации изображений в семантические кластеры и избегает дегенеративной сегментации.
Сегментация с нулевым выстрелом
Алгоритм DiffSeg тесно связан с фреймворками сегментации с нулевым выстрелом, методом, способным сегментировать все без предварительной тренировки или знаний о данных. Модели сегментации с нулевым выстрелом продемонстрировали исключительные возможности нулевого выстрела в последнее время, хотя они требуют некоторого текстового ввода и подсказок. Напротив, алгоритм DiffSeg использует диффузионную модель для генерации сегментации без запроса и синтеза нескольких изображений и без знания содержания объекта.
DiffSeg : Метод и архитектура
Алгоритм DiffSeg использует слои само-внимания в предварительно обученной стабильной диффузионной модели для генерации высококачественных задач сегментации.
Стабильная диффузионная модель
Стабильная диффузия – это одна из фундаментальных концепций в фреймворке DiffSeg. Стабильная диффузия – это генеративный фреймворк ИИ, и одна из наиболее популярных диффузионных моделей. Одна из основных характеристик диффузионной модели – это прямой и обратный проход. На прямом проходе небольшое количество гауссовского шума добавляется к изображению итеративно на каждом временном шаге, пока изображение не станет изотропическим гауссовским шумом. Напротив, на обратном проходе диффузионная модель итеративно удаляет шум в изотропическом гауссовском шуме, чтобы восстановить исходное изображение без гауссовского шума.
Фреймворк стабильной диффузии использует кодировщик-декодировщик и архитектуру U-Net с слоем внимания, где он использует кодировщик для сжатия изображения в пространство с меньшими пространственными размерами и использует декодировщик для расжатия изображения. Архитектура U-Net состоит из стека модульных блоков, где каждый блок состоит из либо трансформаторного слоя, либо слоя ResNet.
Компоненты и архитектура
Слои само-внимания в диффузионных моделях группируют информацию о внутренних объектах в виде пространственных карт внимания, и DiffSeg – это новаторский метод пост-обработки для слияния тензоров внимания в действительную маску сегментации с трубопроводом, состоящим из трех основных компонентов: агрегации внимания, не-максимума подавления и итеративного внимания.
Агрегация внимания
Для входного изображения, которое проходит через слои U-Net и кодировщик, стабильная диффузионная модель генерирует в общей сложности 16 тензоров внимания, по 5 тензоров для каждой из размерностей. Основная цель генерации 16 тензоров – агрегировать эти тензоры внимания с разными разрешениями в тензор с наивысшим возможным разрешением. Для этого алгоритм DiffSeg рассматривает четыре размерности по-разному.
Из четырех размерностей последние 2 размерности в тензорах внимания имеют разные разрешения, но они пространственно последовательны, поскольку 2D-карта пространства DiffSeg соответствует корреляции между местоположениями и пространственными местоположениями. Следовательно, фреймворк DiffSeg выборочно выбирает эти две размерности всех карт внимания до наивысшего разрешения, 64 x 64. Напротив, первые 2 размерности указывают на ссылку на местоположение карт внимания, как показано на следующем изображении.

Поскольку эти размерности относятся к местоположению карт внимания, карты внимания необходимо агрегировать соответственно. Кроме того, чтобы гарантировать, что агрегированная карта внимания имеет действительное распределение, фреймворк нормализует распределение после агрегации, причем каждая карта внимания присваивается вес, пропорциональный ее разрешению.
Итеративное слияние внимания
Хотя основная цель агрегации внимания заключалась в вычислении тензора внимания, основная цель – слить карты внимания в стек объектных предложений, где каждое отдельное предложение содержит либо категорию вещей, либо активацию единственного объекта. Предлагаемое решение для достижения этой цели заключается в реализации алгоритма K-Means на действительном распределении тензоров для поиска кластеров объектов. Однако использование K-Means не является оптимальным решением, поскольку кластеризация K-Means требует от пользователей указать количество кластеров заранее. Кроме того, реализация алгоритма K-Means может привести к разным результатам для одного и того же изображения, поскольку она стохастически зависит от инициализации. Чтобы преодолеть препятствие, фреймворк DiffSeg предлагает сгенерировать сетку выборки для создания предложений путем итеративного слияния карт внимания.
Не-максимум подавления
Предыдущий шаг итеративного слияния внимания дает список объектных предложений в виде вероятностных или карт внимания, где каждое объектное предложение содержит активацию объекта. Фреймворк использует не-максимум подавления для преобразования списка объектных предложений в действительную маску сегментации, и этот процесс является эффективным подходом, поскольку каждый элемент в списке уже является картой распределения вероятностей. Для каждого пространственного местоположения во всех картах алгоритм принимает индекс наибольшей вероятности и присваивает членство на основе индекса соответствующей карты.
DiffSeg : Эксперименты и результаты
Фреймворки, работающие на ненадзорной сегментации, используют два раздела сегментации, а именно Cityscapes и COCO-stuff-27. Набор данных Cityscapes – это набор данных для автономного вождения с 27 средними категориями, тогда как набор данных COCO-stuff-27 – это курированная версия исходного набора данных COCO-stuff, который объединяет 80 вещей и 91 категорию в 27 категорий. Кроме того, для анализа производительности сегментации фреймворк DiffSeg использует среднее пересечение и объединение или mIoU и точность пикселей или ACC, и поскольку алгоритм DiffSeg не может предоставить семантическую метку, он использует алгоритм венгерского сопоставления для присвоения маски сегментации каждой предсказанной маске. В случае, если количество предсказанных масок превышает количество масок фактических данных, фреймворк будет учитывать непредсказанные задачи как ложные отрицания.
Кроме того, фреймворк DiffSeg также подчеркивает следующие три работы, чтобы запустить inference: зависимость от языка или LD, ненадзорное адаптирование или UA и вспомогательное изображение или AX. Зависимость от языка означает, что метод требует описательных текстовых входных данных для облегчения сегментации изображения, ненадзорное адаптирование относится к требованию для метода использовать ненадзорную тренировку на целевом наборе данных, тогда как вспомогательное изображение относится к тому, что метод требует дополнительных входных данных, либо в виде синтетических изображений, либо в виде пула ссылочных изображений.
Результаты
На наборе данных COCO фреймворк DiffSeg включает два базовых варианта K-Means, K-Means-S и K-Means-C. Базовый вариант K-Means-C включает 6 кластеров, рассчитанных путем усреднения количества объектов в оцениваемых изображениях, тогда как базовый вариант K-Means-S использует определенное количество кластеров для каждого изображения на основе количества объектов, присутствующих в фактических данных изображения, и результаты на обоих этих базовых вариантах показаны на следующем изображении.

Как можно увидеть, базовый вариант K-Means превосходит существующие методы, демонстрируя выгоду от использования тензоров само-внимания. Что интересно, базовый вариант K-Means-S превосходит базовый вариант K-Means-C, что указывает на то, что количество кластеров является фундаментальным гиперпараметром, и настройка его важна для каждого изображения. Кроме того, даже при использовании одних и тех же тензоров внимания фреймворк DiffSeg превосходит базовые варианты K-Means, что доказывает способность фреймворка DiffSeg не только обеспечивать лучшую сегментацию, но и избегать недостатков, связанных с использованием базовых вариантов K-Means.
На наборе данных Cityscapes фреймворк DiffSeg обеспечивает результаты, аналогичные фреймворкам, использующим входные данные с более низким разрешением 320, превосходя фреймворки, которые принимают входные данные с более высоким разрешением 512, по точности и mIoU.

Как упоминалось ранее, фреймворк DiffSeg использует несколько гиперпараметров, как показано на следующем изображении.

Агрегация внимания – одна из фундаментальных концепций, используемых в фреймворке DiffSeg, и эффекты использования разных агрегированных весов показаны на следующем изображении с постоянным разрешением изображения.

Как можно наблюдать, высокоразрешающие карты на рис. (б) с 64 x 64 картами дают наиболее подробные сегментации, хотя сегментации имеют некоторые видимые трещины, тогда как карты с более низким разрешением 32 x 32 склонны к пере-сегментации деталей, хотя они и приводят к улучшению согласованной сегментации. На рис. (д) карты с низким разрешением не могут сгенерировать никакой сегментации, поскольку все изображение объединяется в единственный объект с существующими гиперпараметрами. Наконец, рис. (а), который использует стратегию пропорциональной агрегации, приводит к улучшению деталей и сбалансированной согласованности.
Окончательные мысли
Ненадзорная сегментация с нулевым выстрелом все еще является одной из величайших проблем для фреймворков компьютерного зрения, и существующие модели либо полагаются на ненадзорное адаптирование с нулевым выстрелом, либо на внешние ресурсы. Чтобы преодолеть эту проблему, мы обсудили, как слои само-внимания в стабильных диффузионных моделях могут облегчить создание модели, способной сегментировать любой вход в настройке с нулевым выстрелом без надлежащих аннотаций, поскольку эти слои само-внимания по своей сути понимают внутренние понятия объектов, изученные предварительно обученной стабильной диффузионной моделью. Мы также обсудили DiffSeg, новую стратегию пост-обработки, целью которой является использование потенциала стабильной диффузионной модели для создания универсальной модели сегментации, способной к нулевому выстрелу на любом изображении. Алгоритм полагается на сходство между вниманием и внутри-вниманием, чтобы слить карты внимания итеративно в действительные маски сегментации для достижения производительности на уровне состояния на популярных базах данных.












