Штучний Інтелект

Використання стиснення JPEG для покращення навчання нейронної мережі

опублікований Жовтень 10, 2024

Мартін Андерсон

Зображення, створене штучним інтелектом за допомогою ChatGPTY-4o, із запитом «Створіть панорамне фотореалістичне зображення пейзажного заходу сонця, де права половина зображення поступово стає повною потворних артефактів JPEG».

Нова дослідницька стаття з Канади запропонувала структуру, яка навмисно вводить стиснення JPEG у схему навчання нейронної мережі та досягає кращих результатів і кращої стійкості до агресивних атак.

Це досить радикальна ідея, оскільки нинішня загальна думка полягає в тому, що артефакти JPEG, які оптимізовані для перегляду людиною, а не для машинного навчання, зазвичай мають шкідливий вплив на нейронні мережі, навчені на даних JPEG.

Приклад різниці в чіткості між зображеннями JPEG, стисненими з різними значеннями втрат (більші втрати дозволяють зменшити розмір файлу за рахунок розмежування та смуг у градієнтах кольорів, серед інших типів артефактів). Джерело: https://forums.jetphotos.com/forum/aviation-photography-videography-forums/digital-photo-processing-forum/1131923-how-to-fix-jpg-compression-artefacts?p=1131937#post1131937

Звіт Університету Меріленда та Facebook AI за 2022 рік стверджував що стиснення JPEG «суттєво знижує продуктивність» під час навчання нейронних мереж, незважаючи на попередня робота що заявлені нейронні мережі є відносно стійкими до артефактів стиснення зображення.

За рік до цього в літературі з’явилася нова думка: стиснення JPEG може фактично використовувати кредитне плече за покращення результатів у навчанні моделей.

Однак, хоча автори цієї статті змогли отримати покращені результати навчання JPEG-зображень різного рівня якості, запропонована ними модель була настільки складною та обтяжливою, що її неможливо було практично реалізувати. Крім того, використання системою налаштувань оптимізації JPEG за замовчуванням (квантування) виявилося перешкодою для ефективності навчання.

Пізніший проєкт (2023 р.) JPEG-сумісне стиснення для DNN Vision) поекспериментував із системою, яка дала трохи кращі результати для навчальних зображень, стиснутих у форматі JPEG, із використанням a заморожені модель глибокої нейронної мережі (DNN). Однак заморожування частин моделі під час навчання зменшує універсальність моделі, а також її ширшу стійкість до нових даних.

JPEG-DL

Замість цього нова робота, Під назвою JPEG Inspired Deep Learning, пропонує набагато простішу архітектуру, яку можна навіть накласти на існуючі моделі.

Дослідники з Університету Ватерлоо стверджують:

«Результати показують, що JPEG-DL значно і стабільно перевершує стандартний DL у різних архітектурах DNN із незначним збільшенням складності моделі.

Зокрема, JPEG-DL покращує точність класифікації до 20.9% на деяких наборах даних для дрібної класифікації, додаючи при цьому лише 128 параметрів, що піддаються навчанню, до конвеєра DL. Більше того, перевага JPEG-DL над стандартним DL додатково демонструється підвищеною стійкістю до змагальності вивчених моделей та зменшеними розмірами файлів вхідних зображень.

Автори стверджують, що оптимальний рівень якості стиснення JPEG може допомогти нейронній мережі розрізнити центральний об’єкт(и) зображення. У наведеному нижче прикладі ми бачимо базові результати (ліворуч), які змішують птаха з фоном, коли функції отримані нейронною мережею. Навпаки, JPEG-DL (справа) вдається виділити та окреслити об’єкт фотографії.

Перевірки базових методів для JPEG-DL. Джерело: https://arxiv.org/pdf/2410.07081

«Це явище», вони пояснюють, «що у статті [2021] називається «допомагає стиснення», обґрунтовується тим фактом, що стиснення може видалити шум та заважаючі фонові особливості, тим самим виділяючи головний об'єкт на зображенні, що допомагає глибоким нейронним мережам (DNN) робити кращі прогнози».

Метод

JPEG-DL вводить диференційований м'який квантувач, який замінює операцію недиференційованого квантування в стандартній процедурі оптимізації JPEG.

Це дозволяє на основі градієнта оптимізація зображень. Це неможливо у звичайному кодуванні JPEG, яке використовує a рівномірний квантувач з операцією округлення, яка наближає найближчий коефіцієнт.

Диференційованість схеми JPEG-DL дозволяє спільну оптимізацію як параметрів навчальної моделі, так і квантування JPEG (рівня стиснення). Спільна оптимізація означає, що і модель, і навчальні дані адаптуються один до одного в кінець в кінець процесу, і заморожування шарів не потрібно.

По суті, система налаштовує стиснення JPEG (необробленого) набору даних відповідно до логіки процесу узагальнення.

Концептуальна схема для JPEG-DL.

Можна припустити, що необроблені дані будуть ідеальним кормом для навчання; зрештою, зображення повністю розпаковуються у відповідний колірний простір повної довжини, коли вони запускаються пакетами; то яка різниця в оригінальному форматі?

Оскільки стиснення JPEG оптимізовано для людського сприйняття, воно відкидає області деталей або кольору таким чином, що це відповідає цій меті. Враховуючи зображення озера під блакитним небом, до неба буде застосовано підвищений рівень стиснення, оскільки воно не містить «суттєвих» деталей.

З іншого боку, нейронній мережі бракує ексцентричних фільтрів, які дозволяють нам зосередитися на центральних об’єктах. Замість цього, він, імовірно, вважатиме будь-які смугасті артефакти в небі дійсними даними, які будуть засвоєні в його латентний простір.

Хоча людина відкине смуги на небі на сильно стисненому зображенні (ліворуч), нейронна мережа навіть не підозрює, що цей вміст слід викинути, і їй знадобиться зображення вищої якості (праворуч). Джерело: https://lensvid.com/post-processing/fix-jpeg-artifacts-in-photoshop/

Таким чином, один рівень стиснення JPEG навряд чи підійде для всього вмісту навчального набору даних, якщо він не представляє дуже специфічну область. Зображення натовпу вимагатимуть значно меншого стиснення, ніж, наприклад, вузьке зображення птаха.

Автори зауважують, що ті, хто не знайомі з проблемами квантування, але знайомі з основами Трансформатори архітектури, можна розглядати ці процеси як «операція уваги», широко.

Дані та тести

JPEG-DL було оцінено порівняно з архітектурами на основі трансформаторів згорткові нейронні мережі (CNN). Використовувані архітектури були EfficientFormer-L1; ResNet; VGG; MobileNetІ ShuffleNet.

Використовувані версії ResNet були специфічними для CIFAR набір даних: ResNet32, ResNet56 і ResNet110. VGG8 і VGG13 були обрані для тестів на основі VGG.

Для CNN методологія навчання була взята з роботи 2020 року Контрастивне представлення дистиляції (CRD). Для EfficientFormer-L1 (на основі трансформатора), метод навчання з виходу 2023 року Ініціалізація моделей більшими було використано.

Для детальних завдань, представлених у тестах, використовувалися чотири набори даних: Стенфордські собакиОксфордський університет Flowers; КУБ-200-2011 (CalTech Birds); і Домашні тварини («Коти та собаки», співпраця між Оксфордським університетом і Хайдарабадом в Індії).

Для детальних завдань на CNN автори використовували PreAct ResNet-18 та DenseNet-BC. Для EfficientFormer-L1 методологія, викладена вище Ініціалізація моделей більшими було використано.

У CIFAR-100 і детальних завданнях різні величини Дискретне косинусне перетворення (DCT) частоти в підході стиснення JPEG оброблялися за допомогою Адам оптимізатор, щоб адаптувати рівень навчання для шару JPEG на моделях, які були протестовані.

У тестах на ImageNet-1K, у всіх експериментах автори використовували PyTorch, з SqueezeNet, ResNet-18 і ResNet-34 як основні моделі.

Для оцінки оптимізації шару JPEG дослідники використовували Стохастичний градієнтний спуск (SGD) замість Адама, для більш стабільної роботи. Однак для тестів ImageNet-1K використовувався метод із статті 2019 року Вивчили квантування розміру кроку був працевлаштований.

Вище топ-1 точності перевірки для базової лінії порівняно з JPEG-DL на CIFAR-100, зі стандартним і середнім відхиленнями, усередненими за три прогони. Нижче наведено найкращу точність перевірки для різноманітних завдань класифікації дрібнозернистих зображень у різних модельних архітектурах, знову ж таки, усереднену за трьома проходами.

Коментуючи початковий раунд результатів, проілюстрований вище, автори заявляють:

«У всіх семи протестованих моделях для CIFAR-100 JPEG-DL послідовно забезпечує покращення, з покращенням точності до 1.53%. У завданнях з дрібними деталями JPEG-DL пропонує суттєве підвищення продуктивності, з покращенням до 1% на всіх наборах даних з використанням двох різних моделей».

Результати тестів ImageNet-1K наведені нижче:

Топ-1 результатів перевірки точності на ImageNet у різних фреймворках.

Тут у папері зазначено:

«Завдяки тривіальному збільшенню складності (додавання 128 параметрів) JPEG-DL досягає приросту 0.31% у топ-1 точності для SqueezeNetV1.1 порівняно з базовою лінією, використовуючи один цикл операції [квантування].

«Збільшивши кількість раундів квантування до п'яти, ми спостерігаємо додаткове покращення на 0.20%, що призводить до загального приросту на 0.51% порівняно з базовим рівнем».

Дослідники також протестували систему, використовуючи дані, скомпрометовані змагальний напад підходи Швидкий градієнтний метод зі знаком (ФГСМ) і Прогнозований градієнтний спуск (PGD).

Атаки були здійснені на CIFAR-100 на двох моделях:

Результати тестування для JPEG-DL проти двох стандартних систем змагальної атаки.

Автори стверджують:

«Моделі JPEG-DL значно покращують стійкість до змагання порівняно зі стандартними моделями DNN, з покращеннями до 15% для FGSM та 6% для PGD».

Крім того, як було показано раніше в статті, автори провели порівняння витягнутих карт функцій за допомогою GradCAM++ – фреймворк, який може виділяти витягнуті функції візуально.

Ілюстрація GradCAM++ для базової лінії та класифікації зображень JPEG-DL із виділеними виділеними функціями.

У документі зазначається, що JPEG-DL дає кращий результат, і що в одному випадку він навіть зміг класифікувати зображення, яке базова лінія не ідентифікувала. Стосовно раніше проілюстрованого зображення із зображенням птахів автори зазначають:

«[Очевидно], що карти функцій із моделі JPEG-DL показують значно кращий контраст між інформацією переднього плану (птах) і фоном порівняно з картами функцій, згенерованими базовою моделлю.

«Зокрема, об’єкт переднього плану на картах функцій JPEG-DL укладено в чітко визначений контур, завдяки чому його візуально можна відрізнити від фону.

«На противагу цьому, карти ознак базової моделі показують більш змішану структуру, де передній план містить вищу енергію на низьких частотах, що призводить до його плавнішого поєднання з фоном».

Висновок

JPEG-DL призначений для використання в ситуаціях, коли доступні необроблені дані, але було б дуже цікаво побачити, чи можна деякі з принципів, представлених у цьому проекті, застосувати до звичайного навчання набору даних, де вміст може бути нижчої якості (як часто трапляється з гіпермасштабними наборами даних, взятими з Інтернету).

У поточному стані це в основному залишається проблемою анотації, хоча її було розглянуто в розпізнавання зображень на основі трафіку, і в інших місцях.

Вперше опубліковано в четвер, 10 жовтня 2024 р

Схожі теми:Навчання AI класифікація зображень дані навчання

Вгору Далі

Фінансові труднощі лідерства в області штучного інтелекту: погляд на операційні витрати OpenAI

Не пропустіть

Розвиток відкритих моделей: як Qwen2 від Alibaba переосмислює можливості ШІ

Мартін Андерсон

Письменник машинного навчання, фахівець із домену синтезу зображень людини. Колишній керівник відділу досліджень Metaphysic.ai.
Особистий сайт: martinanderson.ai
Контактна особа: [захищено електронною поштою]
Twitter: @manders_ai

Об'єднуйтесь.AI

Використання стиснення JPEG для покращення навчання нейронної мережі

JPEG-DL

Метод

Дані та тести

Висновок

Вам може сподобатися