Погляд Anderson
Надання відчуття запаху розробці штучного інтелекту

Нова база даних штучного інтелекту вчить машини відчувати запах, асоціюючи дані про запах з зображеннями, дозволяючи моделям зіставляти запахи з об’єктами, сценами та матеріалами.
Можливо, тому що машини, що видають запах, мають таку сумнівну історію, відчуття запаху є досить забутим відчуттям у дослідженнях штучного інтелекту. Якщо ви не плануєте створити ще одну роботу в довгій серії (більше століття) саги про запахо-візію, випадки використання завжди здавалися досить «нішевими» у порівнянні з потенційним використанням баз даних зображень, аудіо та відео та моделей штучного інтелекту, які тренуються на них.
Насправді, можливість автоматизації, індустріалізації та популяризації засобів виявлення, які пропонують бомбові собаки, собаки-розшуковики, собаки, що виявляють захворювання, та інші види собак-шукачів, буде суттєвою перевагою в комунальних та охоронних службах. Незважаючи на високу попит, далеко перевищує пропозицію, навчання та утримання собак-шукачів є дорогим бізнесом, який не завжди пропонує добру вартість за гроші.
До цього часу більшість досліджень, які заходять у цю область вивчення, проводилися в лабораторії, з кураторськими колекціями, які зазвичай складаються з прикладів з ручними функціями – профіль, нахилений більше до індивідуальних ремесел, ніж індустріальних застосунків.
Вперед Носом
У цю досить застарілу атмосферу приходять цікаві нові академічні та промислові співробітництва зі США, де команда дослідників провела кілька місяців, каталогізуючи різноманітні запахи в приміщеннях та на відкритому повітрі в місті Нью-Йорк – і вперше збирають зображення, пов’язані з захопленими запахами:

Помітте центральний сенсор, «ніс» приладу для виявлення запаху. Навчена лише на запаху, модель здогадується, чи це граніт, пластик чи шкіра – і навіть визначає кімнату, в якій вона знаходиться, не бачачи жодного пікселя. Джерело
Ці дослідження привели авторів нової роботи до розробки варіанту популярної структури Contrastive Language-Image Pretraining (CLIP), яка з’єднує текст і зображення, у вигляді Contrastive Olfaction-Image Pretraining (COIP) – яка з’єднує запахи і зображення.

Верх: синхронізовані відео- і дані сенсора запаху захоплюються в природних умовах за допомогою камери-нос-приладу. Нижче ліворуч (б): спільне вкладення вивчається через самонавчання. (c): система витягує візуальні збіги лише на основі запиту запаху. (d): окремі зразки запаху використовуються для класифікації середовища, об’єктів і матеріалів. (e): дуже схожі запахи, такі як два види трави, розрізняються без візуального вводу. Джерело
Нова база даних, озаглавлена Нью-Йоркські Запахи, містить 7 000 пар запаху-ізображення, що представляють 3 500 різних об’єктів. Коли тренується в тестах, нові дані виявилися кращими за популярні ручні функції в порівнянні з іншими базами даних.
Автори сподіваються, що їхній перший виступ відкриє шлях для подальших робіт щодо систем виявлення запаху, призначених для роботи в дикій природі, так само, як роблять це собаки-шукачі*:
‘Ми розглядаємо цю базу даних як крок до виявлення запаху в природних умовах, а також крок до зв’язку зору з запахом. Хоча виявлення запаху традиційно здійснювалося в обмежених умовах, таких як контроль якості, є багато застосунків у природних умовах.
‘Наприклад, як люди, ми постійно використовуємо свій запах, щоб оцінити якість їжі, виявити небезпеку та виявити невидимі об’єкти.
‘Крім того, багато тварин, таких як собаки, ведмеді та миші, демонструють надлюдські можливості виявлення запаху капабельності, що свідчить про те, що людське сприйняття запаху далеко не межа можливостей машин.’
Хоча нова робота, озаглавлена Нью-Йоркські Запахи: Велика База Даних для Виявлення Запаху, обіцяє, що дані та код будуть опубліковані, файл бази даних розміром 27 ГБ вже доступний на сайті проекту. Робота була створена дев’ятьма дослідниками з Колумбійського університету, Корнелльського університету та Osmo Labs.
Метод
Для збору матеріалів для нової колекції дослідники використовували електронний ніс Cyranose 320, з встановленою на нього камерою iPhone для захоплення візуального того, що реєструється запахом:

Портативний сенсорний прилад захоплює пари відео- та даних запаху, встановлюючи камеру iPhone на електронний ніс Cyranose 320. Ніс спрямований на об’єкти, тоді як вихід та входи керують потоком повітря під час збору зразків. Камера RGB‑D захоплює глибину, тоді як концентрація летючих органічних сполук (VOC), температура та вологість реєструються через інтегровані сенсори, включаючи модуль PID та екологічний зонд.
Прилад Cyranose працює на частоті 2 Гц, реєструючи 32-мірні часові кроки запаху. Концентрації летючих органічних сполук (VOC) реєструвалися за допомогою сенсора MiniPID2 PPM WR.
Портативний блок функціонував як рухливий сенсор, передаючи дані на більш потужну мобільну станцію для обробки.
Для розміщення цільового запаху в контексті реєструвався «базовий запах», перш ніж цільовий об’єкт був безпосередньо націлений «носом» приладу Cyranose. Вибірка навколишнього середовища була взята з бічного порту в блоку, щоб забезпечити її віддаленість від джерела запаху.
Дві вибірки були взяті через основний отвір сенсора, кожна з яких тривала десять секунд і була захоплена з різних позицій навколо об’єкта, щоб підвищити ефективність даних. Вибірки були потім об’єднані з базовим запахом, утворюючи матрицю розміром 28×32, яка представляла повне вимірювання запаху:

Цей приклад показує сигнал і відповідне зображення для квітки. Повний сигнал запаху складається з матриці 28×32, що поєднує 14-кадровий базовий запах з двома 10-секундними вибірками, взятими з різних кутів навколо цільового об’єкта.
Дані та Тести
Моделі мови та зору (VLMs) використовувалися для автоматичної маркування об’єктів і матеріалів, захоплених камерою iPhone в складі приладу Cyranose, з GPT-4o, використаним для цього завдання; однак категорії сцен були позначені вручну:

Маленький зразок з великої ілюстрації в джерельній роботі, що деталізує різноманітні джерела запаху та середовища, захоплені в проекті.
База даних була розділена на навчальні та валідні розділи, з обома вибірками з кожного об’єкта, призначеними до одного розділу, щоб уникнути забруднення. Остаточна колекція складається з 7 000 пар запаху-ізображення, отриманих з 3 500 необроблених об’єктів, а також 70 годин відео та 196 000 часових кроків сирого даних запаху з фаз базового та вибіркового періоду.
Дані були зібрані протягом 60 сесій за два місяці, охоплюючи парки, університетські будівлі, офіси, вулиці, бібліотеки, квартири та їдальні, з кількома сесіями, проведеними в кожному місці. Остаточна база даних містить 41% зовнішніх та 59% внутрішніх середовищ.
Для розробки загальних представлень запаху автори тренували контрастну модель для асоціації синхронізованих пар запаху-ізображення з бази даних. Цей підхід, згаданий вище COIP, використовує функцію втрат, адаптовану з CLIP, для вирівнювання вкладень співвідносних візуальних та запахових сигналів.
Тренування використовувало як візуальний, так і запаховий кодувач, з метою навчання моделі зблизити відповідні запахи та зображення в спільному просторі представлення. Остаточні представлення підтримують ряд завдань, включаючи витягування зображення-на-захап, розпізнавання сцен та об’єктів, класифікацію матеріалів та дрібнозернисту дискримінацію запаху.
Модель була тренована з двома типами запахових входів: повним сирим сигналом сенсора та скороченим ручним підсумком, відомим як смеллпринт – широко використовувані функції у дослідженнях запаху, які стискають реакцію кожного сенсора в одну цифру шляхом порівняння пікової опору під час вибірки з середньою опорою під час базового періоду.
Натомість сирій вхід, зареєстрований по всьому Нью-Йорку, складається з часової серії з 32 хімічних сенсорів всередині приладу Cyranose, захоплюючи, як кожен сенсор змінює свій електричний опір з часом під час реакції на запах.
Для кураторської обробки бази даних цей неопрацьований сигнал був введений безпосередньо в нейронну мережу, дозволяючи здійснювати навчання з кінця в кінець з використанням або конвольюційного, або трансформерного бекбону. Моделі були треновані з використанням як смеллпринтів, так і сирого входу, зібраного з різних середовищ у Нью-Йорку, з обома типами входів, оціненими за допомогою контрастного навчання.
Перекрестне Витягування
Перекрестне витягування було оцінено шляхом вкладення кожного зразка запаху та його парного зображення в спільний простір представлення та тестування того, чи може бути витягнуте правильне зображення лише на основі входу запаху.
Рейтинг визначався близькістю вкладення кожного зображення до запиту запаху в цьому просторі, а продуктивність вимірювалася за допомогою середнього рейтингу, медіанного рейтингу та відклику на кількох порогах:

Точність перекрестного витягування для різних кодувачів запаху, показуючи, наскільки добре кожна модель ідентифікує правильне зображення з запиту запаху. Результати порівнюють архітектури, треновані на сирому сигналі запаху, з тими, які використовують смеллпринти.
Відносно цих результатів автори заявляють:
‘Контрастне попереднє тренування з використанням смеллпринтів працює краще за випадковість у всіх метриках. Однак тренування кодувача запаху на сирому сигналі запаху приводить до суттєвого покращення порівняно з кодувачем смеллпринтів, незалежно від архітектури.
‘Це показує багатіше інформаційне вміст сирого даних запаху, що відкриває сильніші асоціації між зором і запахом.’

Деталь з сьомої ілюстрації в джерельній роботі, яка є надто стисненою, щоб її можна було відтворити тут. Тут показані приклади перекрестного витягування, демонструють, як модель пов’язує запахи з відповідними зображеннями. Кожен ряд починається з запиту запаху, за яким слідують найкращі передбачувані зображення в спільному просторі вкладення. Правильне зображення для кожного запиту виділено зеленим, показуючи, як запахи книг, рослин, каменю та інших матеріалів привертають модель до візуально та семантично пов’язаних сцен.
Автори також зазначають, що результати витягування показали чіткі семантичні закономірності:
‘Витягування з нашої моделі часто показують семантичні групування. Запах книги витягує зображення інших книг, запах листя витягує зображення листя.
‘Ці результати свідчать про те, що вивчені представлення захоплюють значимі структури між модальностями.’
Розпізнавання Сцен, Об’єктів та Матеріалів
Спроможність моделі розпізнавати запахи без візуального вводу була оцінена шляхом тренування її для розпізнавання сцен, об’єктів та матеріалів лише на основі даних запаху; для цього було використано лінійний зонд (простий класифікатор, тренований на заморожених представленнях), щоб оцінити, скільки інформації було закодовано в вивчених вкладеннях запаху.
Мітки були отримані з парних зображень у навчальному наборі за допомогою GPT-4o – але лише сигнал запаху використовувався під час класифікації.
Були протестовані кілька типів кодувачів: деякі ініціалізовані випадково, деякі треновані з нуля, а інші треновані з використанням контрастного навчання для вирівнювання запаху та зору в спільному просторі представлення, з сирими даними та смеллпринтами, оціненими:

Точність класифікації сцен, матеріалів та об’єктів була оцінена за допомогою даних запаху лише. Сирій вхід сенсора перевершив смеллпринти, з конволюційними нейронними мережами, тренованими з нуля, які давали найкращі результати, включаючи 99,5% для сцен. Самонавчання допомогло в деяких випадках, але загалом було перевершено нагрудним тренуванням. Випадкові вагові базові лінії вказують на те, що ємність моделі сама по собі виявляється недостатньою.
Було досягнуто суттєво вищої точності, коли використовувався сирій сигнал запаху, особливо в моделях, тренованих з контрастним наглядом. Автори коментують**:
‘Моделі, треновані на сирому сенсорному вводі, також досягають вищої точності, ніж моделі, треновані з ручними функціями смеллпринтів. Ці результати свідчать про те, що глибоке навчання з сирого сигналу запаху суттєво краще, ніж ручні функції.’
Дрібнозерниста Дискримінація
Для оцінки того, чи можуть бути вивчені дрібнозернисті відмінності запаху, був створений бенчмарк з двох видів трави, що співіснують на одному університетському газоні. Чергові вибірки були зібрані протягом шести 30-хвилинних сесій, що дало 256 прикладів. Лінійний класифікатор був тренований на функціях з контрастного навчання зору та запаху, та оцінений на окремому наборі з 42 прикладів:

Точність класифікації видів трави лише за запахом. Моделі були оцінені за їхню здатність розрізняти два візуально схожі види трави, використовуючи лише дані запаху. Продуктивність була порівняна через смеллпринти та сирі дані сенсора, з моделями, які були або випадково ініціалізовані, треновані з нуля, або треновані з використанням самонавчання (SSL), за яким слідував лінійний зонд. Найвища точність, 92,9%, була досягнута з використанням сирого сигналу запаху з SSL, вказуючи на те, що дрібнозернисті відмінності запаху краще захоплюються через сирій вхід та тренування, кероване зором.
Тут дослідники заявляють:
‘Тренування на сирому сигналі запаху (замість ручних функцій) дає найвищу точність – перевершуючи всі варіанти, засновані на смеллпринтах.
‘Ці результати свідчать про те, що навчання зору та запаху зберігає більше дрібнозернистих даних, ніж навчання з смеллпринтами, і що візуальне нагляд надає сигнал для використання цієї інформації.’
Висновок
Хоча синтез запаху, ймовірно, залишиться нерозв’язаною проблемою ще деякий час, ефективна та доступна система аналізу запаху в дикій природі має величезний потенціал, не тільки для поліції, безпеки та медичних цілей, але також для моніторингу якості життя та міської інфраструктури.
Наразі обладнання є досить спеціалізованим та дорогим; тому справжній прогрес у сфері «штучного інтелекту запаху» для виявлення, ймовірно, буде потребувати винахідливого та доступного сенсора в дусі Raspberry PI.
* Моє перетворення внутрішніх посилань авторів на гіперпосилання.
** Просимо звернути увагу, що додаткові ілюстрації (фігурка 8) доступні в джерельній роботі, але краще їх переглядати в тому контексті.
Опубліковано вперше у п’ятницю, 28 листопада 2025 року












