Зв'язатися з нами

Використання стиснення JPEG для покращення навчання нейронної мережі

Штучний Інтелект

Використання стиснення JPEG для покращення навчання нейронної мережі

mm

опублікований

 on

Зображення, створене штучним інтелектом за допомогою ChatGPTY-4o, із запитом «Створіть панорамне фотореалістичне зображення пейзажного заходу сонця, де права половина зображення поступово стає повною потворних артефактів JPEG».

Нова дослідницька стаття з Канади запропонувала структуру, яка навмисно вводить стиснення JPEG у схему навчання нейронної мережі та досягає кращих результатів і кращої стійкості до агресивних атак.

Це досить радикальна ідея, оскільки нинішня загальна думка полягає в тому, що артефакти JPEG, які оптимізовані для перегляду людиною, а не для машинного навчання, зазвичай мають шкідливий вплив на нейронні мережі, навчені на даних JPEG.

Приклад різниці в чіткості між зображеннями JPEG, стисненими з різними значеннями втрат (більші втрати дозволяють зменшити розмір файлу за рахунок розмежування та смуг у градієнтах кольорів, серед інших типів артефактів). Джерело: https://forums.jetphotos.com/forum/aviation-photography-videography-forums/digital-photo-processing-forum/1131923-how-to-fix-jpg-compression-artefacts?p=1131937#post1131937

Приклад різниці в чіткості між зображеннями JPEG, стисненими з різними значеннями втрат (більші втрати дозволяють зменшити розмір файлу за рахунок розмежування та смуг у градієнтах кольорів, серед інших типів артефактів). Джерело: https://forums.jetphotos.com/forum/aviation-photography-videography-forums/digital-photo-processing-forum/1131923-how-to-fix-jpg-compression-artefacts?p=1131937#post1131937

Звіт Університету Меріленда та Facebook AI за 2022 рік стверджував що стиснення JPEG «спричиняє значне зниження продуктивності» під час навчання нейронних мереж, незважаючи на попередня робота що заявлені нейронні мережі є відносно стійкими до артефактів стиснення зображення.

За рік до цього в літературі з’явилася нова думка: стиснення JPEG може фактично використовувати кредитне плече за покращення результатів у навчанні моделей.

Однак, хоча автори цієї статті змогли отримати покращені результати в навчанні зображень JPEG різного рівня якості, запропонована ними модель була настільки складною та обтяжливою, що не була здійсненною. Крім того, використання системою налаштувань оптимізації JPEG за замовчуванням (квантування) виявилося перешкодою для ефективності навчання.

Більш пізній проект (2023 р JPEG-сумісне стиснення для DNN Vision) поекспериментував із системою, яка дала трохи кращі результати для навчальних зображень, стиснутих у форматі JPEG, із використанням a заморожені модель глибокої нейронної мережі (DNN). Однак заморожування частин моделі під час навчання зменшує універсальність моделі, а також її ширшу стійкість до нових даних.

JPEG-DL

Замість цього нова робота, Під назвою JPEG Inspired Deep Learning, пропонує набагато простішу архітектуру, яку можна навіть накласти на існуючі моделі.

Дослідники з Університету Ватерлоо стверджують:

«Результати показують, що JPEG-DL значно і стабільно перевершує стандартний DL у різних архітектурах DNN із незначним збільшенням складності моделі.

Зокрема, JPEG-DL покращує точність класифікації на 20.9% у деяких детальних класифікаційних даних, додаючи лише 128 параметрів, які можна навчити, до конвеєра DL. Крім того, перевага JPEG-DL над стандартним DL додатково демонструється підвищеною конкурентоспроможністю вивчених моделей і зменшеними розмірами файлів вхідних зображень».

Автори стверджують, що оптимальний рівень якості стиснення JPEG може допомогти нейронній мережі розрізнити центральний об’єкт(и) зображення. У наведеному нижче прикладі ми бачимо базові результати (ліворуч), які змішують птаха з фоном, коли функції отримані нейронною мережею. Навпаки, JPEG-DL (справа) вдається виділити та окреслити об’єкт фотографії.

Перевірки базових методів для JPEG-DL. Джерело: https://arxiv.org/pdf/2410.07081

Перевірки базових методів для JPEG-DL. Джерело: https://arxiv.org/pdf/2410.07081

"Це явище," вони пояснюють, «назване «стиснення допомагає» в статті [2021], виправдано тим фактом, що стиснення може видалити шум і тривожні фонові елементи, таким чином виділяючи головний об’єкт на зображенні, що допомагає DNN робити кращі прогнози».

Метод

JPEG-DL вводить диференційований м'який квантувач, який замінює операцію недиференційованого квантування в стандартній процедурі оптимізації JPEG.

Це дозволяє на основі градієнта оптимізація зображень. Це неможливо у звичайному кодуванні JPEG, яке використовує a рівномірний квантувач з операцією округлення, яка наближає найближчий коефіцієнт.

Диференційованість схеми JPEG-DL дозволяє спільно оптимізувати як параметри навчальної моделі, так і квантування JPEG (рівень стиснення). Спільна оптимізація означає, що як модель, так і навчальні дані пристосовані одне до одного в кінець в кінець процесу, і заморожування шарів не потрібно.

По суті, система налаштовує стиснення JPEG (необробленого) набору даних відповідно до логіки процесу узагальнення.

Схема для JPEG-DL.

Концептуальна схема для JPEG-DL.

Можна припустити, що необроблені дані будуть ідеальним кормом для навчання; зрештою, зображення повністю розпаковуються у відповідний колірний простір повної довжини, коли вони запускаються пакетами; то яка різниця в оригінальному форматі?

Що ж, оскільки стиснення JPEG оптимізовано для перегляду людиною, воно відкидає області деталей або кольору відповідно до цієї мети. З огляду на зображення озера під блакитним небом, до неба буде застосовано підвищений рівень стиснення, оскільки воно не містить «суттєвих» деталей.

З іншого боку, нейронній мережі бракує ексцентричних фільтрів, які дозволяють нам зосередитися на центральних об’єктах. Замість цього, він, імовірно, вважатиме будь-які смугасті артефакти в небі дійсними даними, які будуть засвоєні в його латентний простір.

Хоча людина відкине смуги на небі на сильно стисненому зображенні (ліворуч), нейронна мережа навіть не підозрює, що цей вміст слід викинути, і їй знадобиться зображення вищої якості (праворуч). Джерело: https://lensvid.com/post-processing/fix-jpeg-artifacts-in-photoshop/

Хоча людина відкине смуги на небі на сильно стисненому зображенні (ліворуч), нейронна мережа навіть не підозрює, що цей вміст слід викинути, і їй знадобиться зображення вищої якості (праворуч). Джерело: https://lensvid.com/post-processing/fix-jpeg-artifacts-in-photoshop/

Таким чином, один рівень стиснення JPEG навряд чи підійде для всього вмісту навчального набору даних, якщо він не представляє дуже специфічну область. Зображення натовпу вимагатимуть значно меншого стиснення, ніж, наприклад, вузьке зображення птаха.

Автори зауважують, що ті, хто не знайомі з проблемами квантування, але знайомі з основами Трансформатори архітектури, можна розглядати ці процеси як "операція уваги", широко.

Дані та тести

JPEG-DL було оцінено порівняно з архітектурами на основі трансформаторів згорткові нейронні мережі (CNN). Використовувані архітектури були EfficientFormer-L1; ResNet; VGG; MobileNetІ ShuffleNet.

Використовувані версії ResNet були специфічними для CIFAR набір даних: ResNet32, ResNet56 і ResNet110. VGG8 і VGG13 були обрані для тестів на основі VGG.

Для CNN методологія навчання була взята з роботи 2020 року Контрастивне представлення дистиляції (CRD). Для EfficientFormer-L1 (на основі трансформатора), метод навчання з виходу 2023 року Ініціалізація моделей більшими було використано.

Для детальних завдань, представлених у тестах, використовувалися чотири набори даних: Стенфордські собаки; Оксфордський університет Flowers; КУБ-200-2011 (CalTech Birds); і Домашні тварини («Коти і собаки», співпраця між Оксфордським університетом і Хайдарабадом в Індії).

Для детальних завдань на CNN автори використовували PreAct ResNet-18 та DenseNet-BC. Для EfficientFormer-L1 методологія, викладена вище Ініціалізація моделей більшими було використано.

У CIFAR-100 і детальних завданнях різні величини Дискретне косинусне перетворення (DCT) частоти в підході стиснення JPEG оброблялися за допомогою Адам оптимізатор, щоб адаптувати рівень навчання для шару JPEG на моделях, які були протестовані.

У тестах на ImageNet-1K, у всіх експериментах автори використовували PyTorch, з SqueezeNet, ResNet-18 і ResNet-34 як основні моделі.

Для оцінки оптимізації шару JPEG дослідники використовували Стохастичний градієнтний спуск (SGD) замість Адама, для більш стабільної роботи. Однак для тестів ImageNet-1K використовувався метод із статті 2019 року Вивчили квантування розміру кроку був працевлаштований.

Вище топ-1 точності перевірки для базової лінії порівняно з JPEG-DL на CIFAR-100, зі стандартним і середнім відхиленнями, усередненими за три прогони. Нижче наведено найкращу точність перевірки для різноманітних завдань класифікації дрібнозернистих зображень у різних модельних архітектурах, знову ж таки, усереднену за трьома проходами.

Вище топ-1 точності перевірки для базової лінії порівняно з JPEG-DL на CIFAR-100, зі стандартним і середнім відхиленнями, усередненими за три прогони. Нижче наведено найкращу точність перевірки для різноманітних завдань класифікації дрібнозернистих зображень у різних модельних архітектурах, знову ж таки, усереднену за трьома проходами.

Коментуючи початковий раунд результатів, проілюстрований вище, автори заявляють:

«У всіх семи протестованих моделях для CIFAR-100 JPEG-DL забезпечує стабільні покращення з підвищенням точності до 1.53% у топ-1. У детальних завданнях JPEG-DL забезпечує значне підвищення продуктивності з покращенням до 20.90% у всіх наборах даних за допомогою двох різних моделей».

Результати тестів ImageNet-1K наведені нижче:

Топ-1 результатів перевірки точності на ImageNet у різних фреймворках.

Топ-1 результатів перевірки точності на ImageNet у різних фреймворках.

Тут у папері зазначено:

«Завдяки тривіальному збільшенню складності (додавання 128 параметрів) JPEG-DL досягає приросту 0.31% у топ-1 точності для SqueezeNetV1.1 порівняно з базовою лінією, використовуючи один цикл операції [квантування].

«Збільшивши кількість раундів квантування до п’яти, ми спостерігаємо додаткове покращення на 0.20%, що призводить до загального приросту на 0.51% порівняно з базовим рівнем».

Дослідники також протестували систему, використовуючи дані, скомпрометовані змагальний напад підходи Швидкий градієнтний метод зі знаком (ФГСМ) і Прогнозований градієнтний спуск (PGD).

Атаки були здійснені на CIFAR-100 на двох моделях:

Результати тестування для JPEG-DL проти двох стандартних систем змагальної атаки.

Результати тестування для JPEG-DL проти двох стандартних систем змагальної атаки.

Автори стверджують:

«[Моделі] JPEG-DL значно покращують стійкість до змагань порівняно зі стандартними моделями DNN, з покращеннями до 15% для FGSM і 6% для PGD».

Крім того, як було показано раніше в статті, автори провели порівняння витягнутих карт функцій за допомогою GradCAM++ – фреймворк, який може виділяти витягнуті функції візуально.

Ілюстрація GradCAM++ для базової лінії та класифікації зображень JPEG-DL із виділеними виділеними функціями.

Ілюстрація GradCAM++ для базової лінії та класифікації зображень JPEG-DL із виділеними виділеними функціями.

У документі зазначається, що JPEG-DL дає кращий результат, і що в одному випадку він навіть зміг класифікувати зображення, яке базова лінія не ідентифікувала. Стосовно раніше проілюстрованого зображення із зображенням птахів автори зазначають:

«[Очевидно], що карти функцій із моделі JPEG-DL показують значно кращий контраст між інформацією переднього плану (птах) і фоном порівняно з картами функцій, згенерованими базовою моделлю.

«Зокрема, об’єкт переднього плану на картах функцій JPEG-DL укладено в чітко визначений контур, завдяки чому його візуально можна відрізнити від фону.

«На відміну від цього, карти функцій базової моделі демонструють більш змішану структуру, де передній план містить вищу енергію на низьких частотах, завдяки чому він більш плавно змішується з фоном».

Висновок

JPEG-DL призначений для використання в ситуаціях, коли доступні необроблені дані, але було б дуже цікаво побачити, чи можна деякі з принципів, представлених у цьому проекті, застосувати до звичайного навчання набору даних, де вміст може бути нижчої якості (як часто трапляється з гіпермасштабними наборами даних, взятими з Інтернету).

У поточному стані це в основному залишається проблемою анотації, хоча її було розглянуто в розпізнавання зображень на основі трафіку, і в інших місцях.

 

Вперше опубліковано в четвер, 10 жовтня 2024 р