Unghiul lui Anderson
Aducerea unui simț al mirosului în dezvoltarea inteligenței artificiale

O nouă bază de date de inteligență artificială învață mașinile să mirosescă prin asocierea datelor de miros cu imagini, permițând modelului să asocieze mirosurile cu obiecte, scene și materiale.
Probabil din cauza faptului că mașinile cu ieșire de miros au o istorie atât de tulbure, olfacția este un simț destul de neglijat în literatura de cercetare a inteligenței artificiale. Cu excepția cazului în care intenționați să produceți o altă intrare în lunga serie (de peste un secol, până în prezent) a sagăi smell-o-vision, cazurile de utilizare au părut întotdeauna destul de “nișate” în comparație cu potențialul exploatării bazelor de date de imagini, audio și video, precum și a modelelor de inteligență artificială antrenate din acestea.
De fapt, posibilitatea de a automatiza, industrializa și populariza facilitățile de detectare oferite de câini de bombă, câini de cadavre, câini de detectare a bolilor și diverse alte tipuri de unități de detectare canine, ar fi un beneficiu notabil în serviciile municipale și de securitate. În ciuda cererii ridicate, mult peste oferta, antrenarea și întreținerea câinilor de detectare este o afacere scumpă care nu întotdeauna oferă o valoare bună pentru banii cheltuiți.
Până în prezent, cea mai mare parte a cercetărilor care se apropie de această zonă de studiu a fost limitată la laborator, cu colecții curate care de obicei sunt alcătuite din exemple cu caracteristici create manual – un profil mai mult îndreptat spre soluții artizanale decât spre aplicații industrializate.
Înainte cu o nas
În acest climat destul de învechit, vine o colaborare academică și industrială interesantă din Statele Unite, în care o echipă de cercetători a petrecut câteva luni catalogând diverse mirosuri în medii interioare și exterioare din New York – și, pentru prima dată, adunând imagini asociate cu mirosurile capturate:

Notați senzorul central, ‘nasul’ dispozitivului olfactiv. Antrenat doar pe miros, modelul ghicește dacă miroase granit, plastic sau piele – și chiar identifică camera în care se află, fără a vedea un singur pixel. Sursă
Această cercetare a condus autorii noii lucrări să conceapă o variantă a cadrului foarte popular Contrastive Language-Image Pretraining (CLIP), care conectează textul și imaginile, sub forma Contrastive Olfaction-Image Pretraining (COIP) – care conectează mirosurile și imaginile.

Sus: datele video și olfactive sunt capturate în medii naturale folosind un dispozitiv cu cameră și senzor olfactiv. Stânga jos (b): se învață o încorporare comună prin auto-supervizare cross-modală. (c): sistemul recuperează potriviri vizuale pe baza unei cereri de miros. (d): mostrele individuale de miros sunt utilizate pentru a clasifica categoriile de mediu, obiect și material. (e): mirosuri foarte asemănătoare, cum ar fi două tipuri de iarbă, sunt distinse fără intrare vizuală. Sursă
Noile date, intitulate New York Smells, conțin 7.000 de perechi de miros și imagine, cu 3.500 de obiecte diferite. Când au fost testate, noile date s-au dovedit a fi mai bune decât caracteristicile populare create manual din celelalte baze de date.
Autorii speră că debutul lor inițial va deschide calea pentru lucrări ulterioare și pentru sisteme de detectare olfactivă proiectate să funcționeze în sălbăticie, în același mod în care funcționează câinii de detectare*:
‘Noi vedem această bază de date ca un pas spre percepția olfactivă multimodală în sălbăticie, precum și un pas spre legarea vederii de miros. În timp ce olfacția a fost abordată în mod tradițional în medii constrânse, cum ar fi asigurarea calității, există multe aplicații în medii naturale.
‘De exemplu, ca oameni, noi folosim constant simțul nostru al mirosului pentru a evalua calitatea alimentelor, a identifica pericolele și a detecta obiectele nevăzute.
‘Mai mult, multe animale, cum ar fi câinii, urșii și șoarecii, arată capacități olfactive supraomenești capacități, ceea ce sugerează că percepția mirosului umană este departe de limita capacităților mașinilor.’
Deși noua lucrare, intitulată New York Smells: O bază de date multimodală mare pentru olfacție, promite că datele și codul vor fi lansate, un fișier de 27 GB este deja disponibil prin site-ul proiectului. Lucrarea a fost realizată de nouă cercetători de la Universitatea Columbia, Universitatea Cornell și Osmo Labs.
Metodă
Pentru a colecta material pentru noua colecție, cercetătorii au utilizat Cyranose 320 electronic nose, cu un iPhone montat deasupra intrării pentru a captura vizual ceea ce mirosuri erau înregistrate:

Un dispozitiv portabil de senzor colectează date video și olfactive pereche prin montarea unei camere iPhone pe un Cyranose 320 e-nas. Botul este îndreptat spre obiecte, în timp ce intrarea de evacuare și purjare gestionează fluxul de aer în timpul mostrelor. O cameră RGB-D capturează adâncimea, în timp ce concentrația de compuși organici volatili (VOC), temperatura și umiditatea sunt înregistrate prin senzori integrați, inclusiv un modul PID și o sonde de mediu.
Dispozitivul Cyranose rulează la 2Hz, înregistrând 32 de etape olfactive. Concentrațiile de compuși organici volatili (VOC) au fost înregistrate cu un MiniPID2 PPM WR senzor.
Unitatea portabilă a funcționat ca un senzor agil, transmițând date către o stație mobilă mai capabilă pentru procesare.
Pentru a plasa mirosul țintă în context, s-a înregistrat un ‘miros de bază’, înainte ca obiectul mai specific să fie vizat direct cu ‘botul’ Cyranose. Mostra ambientală a fost apoi luată dintr-un port lateral al dispozitivului, pentru a se asigura că este suficient de departe de sursa principală de miros pentru a nu fi contaminată.
Au fost luate două mostre prin intrarea principală a senzorului, cu fiecare înregistrare de zece secunde capturată dintr-o poziție diferită în jurul obiectului, pentru a îmbunătăți eficiența datelor. Mostrele au fost apoi combinate cu mostrele de bază pentru a forma o matrice de 28×32, reprezentând măsurarea olfactivă completă:

Acest exemplu arată semnalul și imaginea corespunzătoare pentru o floare. Semnalul olfactiv complet constă într-o matrice de 28×32, combinând o bază ambientală de 14 cadre cu două mostre de zece secunde luate din unghiuri diferite în jurul obiectului țintă.
Date și teste
Modelele de limbaj și imagine (VLM) au fost utilizate pentru a eticheta automat obiectele și materialele capturate de iPhone în dispozitivul Cyranose, cu GPT-4o utilizat pentru această sarcină; cu toate acestea, categoriile de scene au fost etichetate manual:

O mostră mică dintr-o ilustrație extinsă din lucrarea sursă, care detaliază sursele și mediile diverse de miros capturate în proiect.
Baza de date a fost împărțită în seturi de antrenare și validare split, cu mostre din fiecare obiect atribuite aceluiași set pentru a evita contaminarea. Colectia finală cuprinde 7.000 de perechi olfactive-vizuale, extrase din 3.500 de obiecte neetichetate, împreună cu 70 de ore de video și 196.000 de etape de date olfactive brute din fazele de bază și de mostrare.
Datele au fost colectate în 60 de sesiuni pe o perioadă de două luni, cuprinzând parcuri, clădiri universitare, birouri, străzi, biblioteci, apartamente și săli de mâncare, cu multiple sesiuni desfășurate în fiecare locație. Rezultata baza de date conține 41% medii exterioare și 59% medii interioare.
Pentru a dezvolta reprezentări olfactive generale, autorii au antrenat un model contrastiv pentru a asocia perechi de imagini și mirosuri sincronizate din baza de date. Acestă abordare, menționată anterior COIP, utilizează o funcție de pierdere adaptată de la CLIP pentru a alinia încorporările semnalelor vizuale și olfactive co-ocurente.
Antrenamentul a utilizat atât un codator vizual, cât și un codator de miros, cu scopul de a învăța modelul să apropie mirosurile și imaginile potrivite într-un spațiu de reprezentare comun. Reprezentările rezultate susțin o gamă de sarcini downstream, incluzând recuperarea imaginilor din miros, recunoașterea scenei și a obiectului, clasificarea materialului și discriminarea fină a mirosului.
Modelul a fost antrenat utilizând două tipuri de intrări olfactive: semnalul senzorului brut și o sinteză redusă creată manual, cunoscută sub numele de amprente de miros – caracteristici larg utilizate în cercetarea olfactivă care comprimă răspunsul fiecărui senzor într-un singur număr, comparând rezistența de vârf în timpul mostrelor cu rezistența medie în timpul bazei ambientale.
În schimb, intrarea brută înregistrată în toată New York constă într-o serie de timp de la 32 de senzori chimici din dispozitivul Cyranose, capturând modul în care rezistența electrică a fiecărui senzor s-a schimbat în timp ce reacționa la miros.
Pentru curarea bazei de date, acest semnal necomprimat a fost introdus direct într-o rețea neuronală, permițând învățarea de la capăt la coadă cu o arhitectură convoluțională sau transformator -based backbone. Modelele au fost antrenate utilizând atât amprente de miros, cât și intrarea brută colectată din diverse medii din New York, cu ambele tipuri de intrare evaluate utilizând învățarea contrastivă.
Recuperarea cross-modală
Recuperarea cross-modală a fost evaluată prin încorporarea fiecărei mostre de miros și a imaginii sale asociate într-un spațiu de reprezentare comun și testarea capacității de a recupera imaginea corectă pe baza intrării olfactive.
Clasamentul a fost determinat de proximitatea încorporării imaginii față de cererea de miros în acest spațiu, iar performanța a fost măsurată utilizând rang mediu, rang mediu și recuperare la multiple praguri:

Accuratețea recuperării cross-modale pentru diferiți codatori de miros, arătând cât de bine fiecare model identifică imaginea corectă dintr-o cerere de miros. Rezultatele compară arhitecturi antrenate pe semnale olfactive brute cu cele care utilizează amprente de miros.
Referitor la aceste rezultate, autorii afirmă:
‘Preantrenarea contrastivă utilizând amprente de miros performează mai bine decât întâmplător în toate metricile. Cu toate acestea, antrenarea codatorului olfactiv pe semnalul olfactiv brut conduce la o îmbunătățire semnificativă în comparație cu codatorul de amprente de miros, independent de arhitectură.
‘Acest lucru demonstrează informația mai bogată prezentă în datele olfactive brute, deblocând asocieri cross-modale mai puternice între vedere și miros.’
<img class=" wp-image-226472" src="https://www.unite.ai/wp-content/uploads/2025/11/figure-7-detail.jpg" alt="Detaliu din a șaptea ilustrație din lucrarea sursă, care este prea condensată pentru a fi reprodusă în mod semnificativ aici. Aici, exemple de recuperare cross-modală care arată cum modelul leagă mirosurile de imagini potrivite. Fiecare rând începe cu o cerere de miros, urmată de predicțiile de imagine de rang superior în spațiul de încorporare comun. Imaginea corectă pentru fiecare cerere este evidențiată cu verde, ilustrând cum mirosurile de la cărți, plante, zidărie și alte materiale atrag modelul spre scene și semantici vizual relate.
Autorii notează, de asemenea, că rezultatele de recuperare au arătat modele semantice clare:
‘Recuperările de la modelul nostru arată adesea grupări semantice. Mirosul unei cărți recuperează imagini de alte cărți, mirosul frunzelor recuperează imagini de frunze.
‘Aceste rezultate sugerează că reprezentarea învățată capturează structura cross-modală semnificativă.’
Recunoașterea scenei, a obiectului și a materialului
Capacitatea modelului de a recunoaște mirosuri fără intrare vizuală a fost evaluată prin antrenarea acestuia pentru a identifica scene, obiecte și materiale pe baza exclusivă a datelor olfactive; în acest scop, s-a utilizat o sondă liniară (un clasificator simplu antrenat pe reprezentări înghețate) pentru a evalua câtă informație era încodată în încorporările de miros învățate.
Etichetele au fost derivate din imaginile pereche din setul de antrenare utilizând GPT-4o – dar numai semnalul olfactiv a fost utilizat în timpul clasificării.
Au fost testate mai multe tipuri de codatori: unele inițializate aleatoriu, altele antrenate de la zero și altele antrenate utilizând învățarea contrastivă pentru a alinia mirosul și vederea într-un spațiu de reprezentare comun, cu date brute și amprente de miros evaluate:

Accuratețea clasificării pentru scene, materiale și obiecte a fost evaluată utilizând semnale olfactive singure. Intrarea brută a senzorului a depășit amprente de miros, cu rețele neuronale convoluționale antrenate de la zero care au oferit cele mai bune rezultate, incluzând 99,5% pentru scene. Învățarea de auto-supervizare a ajutat în unele cazuri, dar a fost în general depășită de antrenamentul supervizat. Bazele cu greutăți aleatorii indică faptul că capacitatea modelului singură se dovedește insuficientă.
S-a obținut o acuratețe semnificativ mai mare atunci când s-au utilizat date olfactive brute, în special în modele antrenate cu supraveghere cross-modală. Autorii comentează**:
‘Modelele antrenate pe intrări senzoriale brute realizează, de asemenea, o acuratețe mai mare decât modelele antrenate cu caracteristicile amprentelor de miros create manual. Aceste rezultate arată că învățarea profundă din semnalele olfactive brute este semnificativ mai bună decât caracteristicile create manual.’
Discriminarea fină
Pentru a evalua dacă pot fi învățate distincții fine de miros, s-a construit o bază de referință din două specii de iarbă care coexistă pe aceeași peluză a campusului. Mostre alternative au fost colectate pe parcursul a șase sesiuni de 30 de minute, dând naștere la 256 de exemple. Un clasificator liniar a fost antrenat pe caracteristici din învățarea contrastivă olfactiv-vizuală și evaluat pe un set de 42 de mostre separate:

Accuratețea clasificării speciilor de iarbă din miros singur. Modelele au fost evaluate pe capacitatea de a distinge între două tipuri de iarbă vizual similare, utilizând doar intrarea olfactivă. Performanța a fost comparată pe amprente de miros și date senzoriale brute, cu modele fie inițializate aleatoriu, fie antrenate de la zero, fie antrenate utilizând învățarea de auto-supervizare (SSL), urmată de o sondă liniară. Cea mai mare acuratețe, 92,9%, a fost obținută utilizând semnale olfactive brute cu SSL, indicând că diferențele fine de miros sunt cel mai bine capturate prin intrarea brută și antrenamentul ghidat de vedere.
Aici cercetătorii afirmă:
‘Antrenarea pe semnalul olfactiv brut al senzorului (în loc de caracteristici create manual) oferă cea mai mare acuratețe – depășind toate variantele bazate pe amprente de miros.
‘Aceste rezultate sugerează că învățarea olfactiv-vizuală păstrează mai multă informație fină decât învățarea cu amprente de miros, și că supravegherea vizuală oferă un semnal pentru exploatarea acestei informații.’
Concluzie
Deși sinteza mirosului pare să rămână o problemă nerezolvată pentru o perioadă de timp, un sistem eficient și accesibil de analiză a mirosului în sălbăticie are un potențial enorm, nu numai pentru poliție, securitate și scopuri medicale, ci și pentru monitorizarea calității vieții și a mediului urban.
În prezent, echipamentul implicat este de nișă și, de obicei, destul de scump; prin urmare, progresul real în ‘inteligența olfactivă’ pentru detectare pare să necesite un senzor vizionar și accesibil în spiritul Raspberry PI.
* Conversia mea a citărilor inline ale autorilor în legături.
** Vă rugăm să rețineți că ilustrații suplimentare (figura 8) sunt disponibile în lucrarea sursă, dar sunt mai bine vizualizate în contextul acesteia.
Publicat pentru prima dată vineri, 28 noiembrie 2025












