Искусственный интеллект
Разделение ‘слитых’ людей в компьютерном зрении

Новая статья из Центра инноваций Hyundai Motor Group в Сингапуре предлагает метод для разделения ‘слитых’ людей в компьютерном зрении – тех случаев, когда фреймворк распознавания объектов обнаружил человека, который находится слишком близко к другому человеку (например, ‘объятия’ или ‘стояние за’ позы), и не может разъединить двух людей, представленных, путая их с одним человеком или сущностью.

Два становятся одним, но это не хорошо в семантической сегментации. Здесь мы видим, как новая система достигает лучших результатов в индивидуализации переплетенных людей в сложных и сложных изображениях. Source: https://arxiv.org/pdf/2210.03686.pdf
Это заметная проблема, которая получила большое внимание в исследовательском сообществе в последние годы. Решение этой проблемы без очевидных, но обычно недоступных расходов на гипермасштабную, человеко-ориентированную настройку могло бы в конечном итоге привести к улучшению индивидуализации людей в текст-изображение системах, таких как Stable Diffusion, которые часто ‘сливаются’ людей вместе, где запрошенная поза требует нескольких человек, чтобы быть в близком соседстве друг с другом.

Примите ужас – текст-изображение модели, такие как DALL-E 2 и Stable Diffusion (оба представлены выше), испытывают трудности в представлении людей в очень близком соседстве друг с другом.
Хотя генеративные модели, такие как DALL-E 2 и Stable Diffusion, не используют (насколько известно, в случае закрытого DALL-E 2) семантическую сегментацию или распознавание объектов, эти ужасные человеческие порталы не могли быть вылечены применением таких методов – потому что состояние искусства объектного распознавания библиотек и ресурсов не намного лучше в разделении людей, чем CLIP-основанные рабочие процессы моделей распространения.
Чтобы решить эту проблему, новая статья – озаглавленная Люди не должны помечать больше людей: Occlusion Copy & Paste для Occluded Human Instance Segmentation– адаптирует и улучшает недавний ‘вырезать и вставить’ подход к полу-синтетическим данным, чтобы достичь нового лидерства в этой задаче, даже против самых сложных исходных материалов:

Новая методология Occlusion Copy & Paste в настоящее время лидирует в этой области, даже против предыдущих фреймворков и подходов, которые решают эту проблему в сложных и более посвященных способах, таких как специальное моделирование для осложнений.
Вырезать!
Измененный метод – озаглавленный Occlusion Copy & Paste – получен из статьи 2021 года Simple Copy-Paste, возглавляемой Google Research, которая предложила, что наложение извлеченных объектов и людей среди разнообразных источников обучающих изображений может улучшить способность системы изображения распознавать каждую экземпляр, найденный в изображении:

Из статьи 2021 года Google Research ‘Simple Copy-Paste is a Strong Data Augmentation Method for Instance Segmentation’ мы видим элементы из одной фотографии ‘мигрирующие’ в другие фотографии, с целью обучения лучшей модели распознавания изображений. Source: https://arxiv.org/pdf/2012.07177.pdf
Новая версия добавляет ограничения и параметры в этот автоматический и алгоритмический ‘перепастинг’, аналогизируя процесс в ‘корзину’ изображений, полную потенциальных кандидатов для ‘переноса’ в другие изображения, на основе нескольких ключевых факторов.

Концептуальная рабочая схема для OC&P.
Контроль элементов
Эти ограничивающие факторы включают вероятность того, что произойдет вырезка и вставка, что гарантирует, что процесс не происходит все время, что достигнет ‘насыщения’, которое подорвет данные; количество изображений, которое будет иметь ‘корзина’ в любой момент времени, где большее количество ‘сегментов’ может улучшить разнообразие экземпляров, но увеличить время предварительной обработки; и диапазон, который определяет количество изображений, которые будут вставлены в ‘хост’-изображение.
Что касается последнего, статья отмечает ‘Нам нужно достаточно осложнений, чтобы это произошло, но не слишком много, поскольку они могут переполнить изображение, что может быть вредным для обучения.’
Другие две инновации для OC&P – целевая вставка и усиленная вставка экземпляра.
Целевая вставка гарантирует, что подходящее изображение приземлится рядом с существующим экземпляром в целевом изображении. В предыдущем подходе, из предыдущей работы, новый элемент был ограничен только внутри границ изображения, без учета контекста.

Хотя это ‘вставка’, с целевой вставкой, очевидна для человеческого глаза, как OC&P, так и его предшественник, обнаружили, что увеличение визуальной аутентичности не обязательно важно и даже может быть вредным (см. ‘Реальность кусает’ ниже).
Усиленная вставка экземпляра, с другой стороны, гарантирует, что вставленные экземпляры не демонстрируют ‘отличительный вид’, который может быть классифицирован системой каким-то образом, что может привести к исключению или ‘специальному лечению’, которое может препятствовать обобщению и применимости. Усиленная вставка модулирует визуальные факторы, такие как яркость и резкость, масштаб и поворот, и насыщенность – среди других факторов.

Из дополнительных материалов для новой статьи: добавление OC&P к существующим фреймворкам распознавания довольно тривиально и приводит к лучшей индивидуализации людей в очень близком соседстве. Source: https://arxiv.org/src/2210.03686v1/anc/OcclusionCopyPaste_Supplementary.pdf
Кроме того, OC&P регулирует минимальный размер для любого вставленного экземпляра. Например, возможно извлечь изображение одного человека из огромной толпы, которое можно вставить в другое изображение – но в таком случае небольшое количество пикселей, участвующих в этом процессе, вряд ли поможет распознаванию. Поэтому система применяет минимальный масштаб на основе отношения равной длины стороны для целевого изображения.
Дальше, OC&P устанавливает масштабно-чувствительную вставку, где, помимо поиска подобных предметов, как вставленный предмет, она учитывает размер границы в целевом изображении. Однако это не приводит к составным изображениям, которые люди считают правдоподобными или реалистичными (см. изображение ниже), а скорее собирает семантически подходящие элементы рядом друг с другом способами, которые полезны во время обучения.
Реальность кусает
И предыдущая работа, на которой основан OC&P, и текущая реализация, ставят низкую премию на аутентичность или ‘фотореализм’ любого окончательного ‘монтажного’ изображения. Хотя важно, чтобы окончательная сборка не спустилась совсем в дадаизм (если бы реальные развертывания обученных систем могли когда-либо надеяться встретить элементы в таких сценах, как они были обучены), обе инициативы обнаружили, что заметное увеличение ‘визуальной достоверности’ не только добавляет к времени предварительной обработки, но и что такие ‘реализм-усиления’ вероятно будут контрпродуктивными.

Из дополнительных материалов для новой статьи: примеры дополненных изображений с ‘случайным смешением’. Хотя эти сцены могут выглядеть галлюциногенно для человека, они тем не менее имеют подобные предметы, брошенные вместе; хотя осложнения фантастичны для человеческого глаза, природа потенциального осложнения не может быть известна заранее и невозможно обучить – поэтому такие странные ‘отрезки’ формы достаточно, чтобы заставить обученную систему искать и распознавать частичные целевые предметы, не нуждаясь в разработке сложных методологий в стиле Photoshop, чтобы сделать сцены более правдоподобными.
Данные и тесты
Для фазы тестирования система была обучена на человек классе MS COCO набора данных, содержащего 262 465 примеров людей по 64 115 изображениям. Однако, чтобы получить лучшие качественные маски, чем MS COCO имеет, изображения также получили LVIS маски аннотаций.

Выпущенный в 2019 году, LVIS, из исследований Facebook, является объемным набором данных для Large Vocabulary Instance Segmentation. Source: https://arxiv.org/pdf/1908.03195.pdf
Чтобы оценить, насколько хорошо дополненная система может противостоять большому количеству осложненных человеческих изображений, исследователи поставили OC&P против OCHuman (Occluded Human) бенчмарка.

Примеры из набора данных OCHuman, представленного в поддержку проекта Pose2Seg в 2018 году. Эта инициатива стремилась получить улучшенную семантическую сегментацию людей, используя их позу и положение как семантический делитель для пикселей, представляющих их тела. Source: https://github.com/liruilong940607/OCHumanApi
Поскольку бенчмарк OCHuman не исчерпывающе аннотирован, исследователи новой статьи создали подмножество только тех примеров, которые были полностью помечены, озаглавленное OCHumanFL. Это уменьшило количество человек экземпляров до 2 240 по 1 113 изображениям для проверки и 1 923 экземпляров по 951 фактически использованным для тестирования изображениям. И оригинальный, и новый набор данных были протестированы, используя Среднюю Среднюю Точность (mAP) в качестве основной метрики.
Для последовательности архитектура состояла из Mask R-CNN с ResNet-50 бэкбоном и функциональной пирамидальной сетью, последняя обеспечивая приемлемый компромисс между точностью и скоростью обучения.
С учетом того, что исследователи отметили вредное влияние вверх-потокового ImageNet влияния в подобных ситуациях, вся система была обучена с нуля на 4 NVIDIA V100 GPU, в течение 75 эпох, следующих параметрам инициализации Facebook 2021 года Detectron 2.
Результаты
Помимо вышеупомянутых результатов, базовые результаты против MMDetection (и его трех связанных моделей) для тестов указали на явное лидерство OC&P в его способности выбрать человеческие существа из запутанных поз.

Помимо того, что OC&P превосходит PoSeg и Pose2Seg, возможно, одним из наиболее выдающихся достижений статьи является то, что система может быть довольно обобщенно применена к существующим фреймворкам, включая те, которые были противопоставлены ей в испытаниях (см. сравнения с/без в первом результатном ящике, gần начала статьи).
Статья заключает:
‘Ключевым преимуществом нашего подхода является то, что он легко применяется с любой моделью или другими улучшениями, связанными с моделью. Учитывая скорость, с которой движется область глубокого обучения, всем полезно иметь подходы, которые высоко взаимодействуют с каждым другим аспектом обучения. Мы оставляем как будущую работу интеграцию этого с улучшениями, связанными с моделью, чтобы эффективно решить проблему осложненной сегментации экземпляров человека.’
Потенциал для улучшения текст-изображение синтеза
Ведущий автор Эван Линг отметил в электронном письме нам*, что главным преимуществом OC&P является то, что он может сохранить исходные метки масок и получить новую ценность из них ‘бесплатно’ в новом контексте – т.е. изображениях, в которые они были вставлены.
Хотя семантическая сегментация людей кажется тесно связанной с трудностью, которую модели, такие как Stable Diffusion, испытывают в индивидуализации людей (а не ‘сливая их вместе’, как они часто делают), любое влияние, которое семантическая маркировка может оказать на кошмарные человеческие рендеры, которые SD и DALL-E 2 часто выводят, очень, очень далеко вверх-потока.
Миллиарды LAION 5B подмножества изображений, которые населяют генеративную мощь Stable Diffusion, не содержат объектно-уровневых меток, таких как границы и маски экземпляров, даже если архитектура CLIP, которая составляет рендеры из изображений и базы данных контента, могла бы извлечь пользу из такой инстанциации; скорее, метки LAION изображений помечены ‘бесплатно’, поскольку их метки были получены из метаданных и окружающих подписей и т. д., которые были связаны с изображениями, когда они были извлечены из веба в набор данных.
‘Но помимо этого,’ сказал Линг нам. ‘некоторый вид дополнения, подобный нашему OC&P, может быть использован во время обучения текст-изображение генеративных моделей. Но я думаю, что реализм дополненного обучающего изображения может стать проблемой.
‘В нашей работе мы показываем, что ‘идеальный’ реализм обычно не требуется для надзорной сегментации экземпляра, но я не уверен, можно ли сделать тот же вывод для обучения текст-изображение генеративных моделей (особенно когда их выводы ожидаются быть высокореалистичными). В этом случае может потребоваться больше работы по ‘совершенствованию’ реализма дополненных изображений.’
CLIP уже используется как возможный многомодальный инструмент для семантической сегментации, что предполагает, что улучшенные системы распознавания и индивидуализации людей, такие как OC&P, могут в конечном итоге быть разработаны в фильтры или классификаторы внутри системы, которые произвольно отклоняют ‘слившиеся’ и искаженные человеческие представления – задача, которая трудна для достижения в настоящее время с Stable Diffusion, поскольку у нее ограниченная способность понимать, где она ошиблась (если бы у нее была такая способность, она, вероятно, не совершила бы ошибку в первую очередь).

Только один из числа проектов, в настоящее время использующих фреймворк CLIP от OpenAI – сердце DALL-E 2 и Stable Diffusion – для семантической сегментации. Source: https://openaccess.thecvf.com/content/CVPR2022/papers/Wang_CRIS_CLIP-Driven_Referring_Image_Segmentation_CVPR_2022_paper.pdf
‘Другой вопрос будет,’ предполагает Линг. ‘сработает ли просто кормление этих генеративных моделей изображениями осложненных людей во время обучения, без дополнительного проектирования архитектуры модели, чтобы смягчить проблему ‘слившихся людей’? Это, вероятно, вопрос, который трудно ответить без рук. Это будет интересно увидеть, как мы можем внедрить некоторый вид руководства на уровне экземпляра (через метки экземпляра, такие как маска экземпляра) во время обучения текст-изображение генеративных моделей.’
* 10 октября 2022 года
Опубликовано впервые 10 октября 2022 года.












