Свяжитесь с нами:

Решение проблемы артефактов JPEG в наборах данных компьютерного зрения

Искусственный интеллект

Решение проблемы артефактов JPEG в наборах данных компьютерного зрения

mm

Новое исследование Мэрилендского университета и Facebook AI выявило «значительное снижение производительности» для систем глубокого обучения, которые используют в своих наборах данных изображения JPEG с высокой степенью сжатия, и предлагает несколько новых методов для смягчения последствий этого.

Команда докладе, Под названием Анализ и устранение дефектов сжатия JPEG в глубоком обучении, утверждается, что это исследование «значительно более полное», чем предыдущие исследования влияния артефактов на обучающие наборы данных компьютерного зрения. В статье установлено, что «[сильное] или умеренное сжатие JPEG приводит к значительному снижению производительности по стандартным показателям», и что нейронные сети, возможно, не так устойчивы к таким возмущениям, как в предыдущих работах. исследованиям.

Фотография собаки из набора данных MobileNetV2018 2 года. При качестве 10 (слева) система классификации не может определить правильную породу «вельш-корги пемброк», вместо этого угадывая «норвич-терьер» (система уже знает, что это фотография собаки, но не порода); второй слева: стандартная версия изображения в формате JPEG с исправленными артефактами снова не может определить правильную породу; второй справа, целевое исправление артефактов восстанавливает правильную классификацию; и правильно, оригинальное фото, правильно классифицированное. Источник: https://arxiv.org/pdf/2011.08932.pdf

Фотография собаки из набора данных MobileNetV2018 2 года. При качестве 10 (слева) система классификации не может определить правильную породу «вельш-корги пемброк», вместо этого предполагая «норвич-терьер» (система уже знает, что это фотография собаки, но не породы); вторая слева — стандартная версия изображения JPEG с исправленными артефактами снова не может определить правильную породу; вторая справа — целенаправленная коррекция артефактов восстанавливает правильную классификацию; и справа — исходная фотография, классифицированная правильно. Источник: https://arxiv.org/pdf/2011.08932.pdf

Артефакты сжатия как «данные»

Экстремальное сжатие JPEG, вероятно, создаст видимые или полувидимые границы вокруг изображения. 8×8 блока Из которых JPEG-изображение собирается в пиксельную сетку. Появление этих артефактов блокировки или «звона» может привести к их ошибочной интерпретации системами машинного обучения как реальных элементов объекта изображения, если только не будет предпринята определенная компенсация.

Выше система машинного обучения компьютерного зрения извлекает «чистое» градиентное изображение из изображения хорошего качества. Ниже «блокирующие» артефакты в низкокачественном сохранении изображения скрывают особенности объекта и могут в конечном итоге «заразить» функции, полученные из набора изображений, особенно в случаях, когда в наборе данных встречаются изображения высокого и низкого качества. , например, в коллекциях, извлеченных из Интернета, к которым применялась только общая очистка данных. Источник: http://www.cs.utep.edu/ofuentes/papers/quijasfuentes2014.pdf.

Выше система машинного обучения на основе компьютерного зрения извлекает «чистое» градиентное изображение из фотографии хорошего качества. Ниже, «блокирующие» артефакты на сохранённом в низком качестве изображении скрывают особенности объекта и могут в конечном итоге «заражать» особенности, полученные из набора изображений, особенно в случаях, когда в наборе данных встречаются изображения как высокого, так и низкого качества, например, в коллекциях, полученных из веб-скрапинга, к которым применялась только общая очистка данных. Источник: http://www.cs.utep.edu/ofuentes/papers/quijasfuentes2014.pdf.

Как видно на первом изображении выше, такие артефакты могут влиять на задачи классификации изображений, что также влияет на алгоритмы распознавания текста, которые могут не правильно идентифицировать затронутые артефактами символы.

В случае систем обучения синтезу изображений (таких как программы для создания дипфейков или системы генерации изображений на основе генеративно-состязательных сетей) «нестандартный» блок низкокачественных, сильно сжатых изображений в наборе данных может либо снизить медианное качество воспроизведения, либо быть поглощенным и фактически перекрытым большим количеством более качественных признаков, извлеченных из более качественных изображений в наборе. В любом случае желательны более качественные данные — или, по крайней мере, согласованные данные.

JPEG — обычно «достаточно хорошо»

Сжатие JPEG — это кодек с необратимыми потерями, который можно применять к различным форматам изображений, хотя в основном он применяется к файлам изображений JFIF. обертка. Несмотря на это, формат JPEG (.jpg) был назван в честь связанного с ним метода сжатия, а не оболочки JFIF для данных изображения.

В последние годы появились целые архитектуры машинного обучения, которые включают устранение артефактов в стиле JPEG как часть процедур масштабирования/восстановления, управляемых ИИ, а удаление артефактов сжатия на основе ИИ теперь включено в ряд коммерческих продуктов, таких как Topaz image/ видео suite, и нейронные особенности последних версий Adobe Photoshop.

Учитывая, что 1986 Схема JPEG, которая в настоящее время широко используется, была практически заблокирована в начале 1990-х годов. К изображению невозможно добавить метаданные, которые бы указывали, с каким уровнем качества (1–100) сохранено изображение JPEG, по крайней мере, без модификации более чем тридцати лет устаревших потребительских, профессиональных и академических программных систем, которые не предполагали наличия таких метаданных.

Следовательно, нередко программы машинного обучения адаптируются к оценённому или известному качеству данных изображений JPEG, как это сделали исследователи в новой статье (см. ниже). В отсутствие метаданных о «качестве» в настоящее время необходимо либо знать подробности сжатия изображения (т.е. сжатие из исходного файла без потерь), либо оценить качество с помощью перцептивных алгоритмов или ручной классификации.

Экономический компромисс

JPEG — не единственный метод сжатия с потерями, который может повлиять на качество наборов данных машинного обучения; настройки сжатия в файлах PDF также могут таким образом отбрасывать информацию и устанавливать очень низкие уровни качества, чтобы сэкономить место на диске для целей локального или сетевого архивирования.

Это можно увидеть, взглянув на различные PDF-файлы на archive.org, некоторые из которых были сжаты настолько сильно, что представляли собой серьёзную проблему для систем распознавания изображений или текста. Во многих случаях, например, в случае с книгами, защищёнными авторским правом, такое интенсивное сжатие, по-видимому, применялось как форма дешёвой DRM-защиты, подобно тому, как правообладатели могут снизить разрешение видео, загруженных пользователями на YouTube, на которые они имеют права интеллектуальной собственности, оставляя «блочные» видео в качестве рекламных токенов, побуждающих покупать видео в полном разрешении, вместо того, чтобы удалять их.

Во многих других случаях разрешение или качество изображения низкие просто потому, что данные очень старые и происходят из эпохи, когда локальное и сетевое хранилище было более дорогим, а ограниченная скорость сети отдавала предпочтение высокооптимизированным и портативным изображениям, а не высококачественному воспроизведению. .

Утверждается, что JPEG, хотя и не является лучшим решением сейчас, был «закреплен» как неустранимая устаревшая инфраструктура, которая по сути переплетена с основами Интернета.

Бремя наследия

Хотя более поздние инновации, такие как JPEG 2000, PNG и (совсем недавно) формат .webp, обеспечивают превосходное качество, повторная выборка старых, очень популярных наборов данных машинного обучения, возможно, «сбросит» преемственность и историю ежегодных проблем компьютерного зрения в академическом сообществе. Это препятствие будет иметь место и в случае повторного сохранения изображений в формате PNG с более высокими настройками качества. Это можно рассматривать как своего рода технический долг.

В то время как почтенные серверные библиотеки обработки изображений, такие как ImageMagick, поддерживают лучшие форматы, включая .webp, требования к преобразованию изображений часто возникают в устаревших системах, которые не настроены ни для чего другого, кроме JPG или PNG (которые обеспечивают сжатие без потерь, но за счет задержка и место на диске). Даже WordPress, CMS, на котором почти 40% всех веб-сайтов, добавлена ​​только поддержка .webp три месяца назад.

PNG был поздним (возможно, слишком поздним) входом в сектор форматов изображений, возникшим как решение с открытым исходным кодом во второй половине 1990-х годов в ответ на декларация 1995 года Unisys и CompuServe решили, что отныне роялти будут выплачиваться за формат сжатия LZW, используемый в файлах GIF, которые в то время широко применялись для логотипов и одноцветных элементов, даже если формат воскресение в начале 2010-х была сосредоточена на его способности предоставлять динамичный анимированный контент с низкой пропускной способностью (по иронии судьбы, анимированные PNG никогда не пользовались популярностью или широкой поддержкой, и даже были запрещено в Twitter В 2019).

Несмотря на свои недостатки, сжатие JPEG является быстрым, компактным и глубоко внедренным в системы всех типов, и поэтому вряд ли полностью исчезнет со сцены машинного обучения в ближайшем будущем.

Максимальное использование разрядки AI/JPEG

В какой-то степени сообщество машинного обучения приспособилось к недостаткам сжатия JPEG: в 2011 году Европейское общество радиологии (ESR) опубликовало проведенное исследование о «Возможности использования необратимого сжатия изображений в радиологических исследованиях», где даны рекомендации по «приемлемым» потерям; когда почтенный МНИСТ Набор данных распознавания текста (данные изображений которого изначально предоставлялись в новом двоичном формате) был перенесен в «обычный» формат изображения, JPEG, а не PNG, был выбран; и более раннее (2020) сотрудничество авторов новой статьи было предложено «новая архитектура» для калибровки систем машинного обучения с учетом недостатков различного качества изображения JPEG без необходимости обучения моделей для каждой настройки качества JPEG — функция, используемая в новой работе.

Действительно, исследование полезности данных JPEG с разным качеством является относительно процветающей областью машинного обучения. Один (несвязанный) проект 2016 года Центра исследований в области автоматизации Университета Мэриленда, на самом деле центры в домене DCT (где артефакты JPEG возникают при низких настройках качества) как путь к глубокому извлечению признаков; другой проект 2019 года концентрируется на чтение данных JPEG на уровне байтов без трудоемкой необходимости фактически распаковывать изображения (т.е. открывать их в какой-то момент автоматизированного рабочего процесса); и проведенное исследование из Франции в 2019 году активно использует сжатие JPEG для процедур распознавания объектов.

Тестирование и выводы

Возвращаясь к последнему исследованию Мичиганского университета и Facebook, исследователи стремились проверить понятность и полезность JPEG на изображениях, сжатых в диапазоне от 10 до 90 (ниже которого изображение практически не искажается, а выше — соответствует сжатию без потерь). Изображения, использованные в тестах, были предварительно сжаты до каждого значения в пределах целевого диапазона качества, что потребовало не менее восьми сеансов обучения.

Модели обучались стохастическому градиентному спуску четырьмя методами: базовая линия, где не было добавлено никаких дополнительных средств защиты; контролируемая доводка, где обучающий набор имеет преимущество предварительно обученных весов и помеченных данных (хотя исследователи признают, что это трудно воспроизвести в приложениях потребительского уровня); коррекция артефактов, где перед обучением на сжатых изображениях выполняется аугментация/улучшение; и направленная на задачу коррекция артефактов, где корректная сеть артефактов точно настроена на возвращаемые ошибки.

Обучение проводилось на самых разных подходящих наборах данных, включая несколько вариантов ResNet, ФастRCNN, Мобильная сеть V2, МаскаRCNN и Керас НачалоV3.

Результаты потери выборки после коррекции артефактов, ориентированных на задачу, визуализируются ниже (ниже = лучше).

Невозможно подробно рассмотреть результаты, полученные в ходе исследования, поскольку выводы исследователей разделились между целью оценки артефактов JPEG и новыми методами их устранения; обучение было итеративным. за качество над таким количеством наборов данных; и задачи включали несколько целей, таких как обнаружение объектов, сегментация и классификация. По сути, новый отчет позиционируется как всеобъемлющий справочник, посвященный множеству вопросов.

Тем не менее, в статье делается общий вывод о том, что «сжатие JPEG имеет существенные потери по всем направлениям при высоких и средних настройках сжатия». Также утверждается, что новые немаркированные стратегии снижения помех достигают превосходных результатов среди других аналогичных подходов; что для сложных задач контролируемый метод исследователей также превосходит аналоги, несмотря на отсутствие доступа к истинным меткам; и что эти новые методологии допускают повторное использование моделей, поскольку полученные весовые коэффициенты можно переносить между задачами.

Что касается задач классификации, в статье прямо утверждается, что «JPEG ухудшает качество градиента, а также приводит к ошибкам локализации».

Авторы надеются расширить будущие исследования, чтобы охватить другие методы сжатия, такие как в значительной степени игнорируемый JPEG 2000, а также WebP, (включая измененные, и даже если изначально они имели HEIF и БПГ. Они также предполагают, что их методология может быть применена к аналогичным исследованиям алгоритмов сжатия видео.

Поскольку метод коррекции артефактов, ориентированный на задачу, оказался настолько успешным в исследовании, авторы также заявляют о своем намерении опубликовать веса, обученные в ходе проекта, ожидая, что «[многие] приложения выиграют от использования наших весов TTAC без изменений».

 

nb Исходное изображение для статьи взято с сайта thispersondoesnotexist.com.

Автор статей о машинном обучении, специалист по синтезу человеческих изображений. Бывший руководитель исследовательского контента в Metaphysic.ai.
Личный сайт: Мартинандерсон.ай
Контактное лицо: [электронная почта защищена]
Твиттер: @manders_ai