Anderson का एंगल

कृत्रिम बुद्धिमत्ता विकास में गंध की भावना लाना

Published November 28, 2025

Updated April 25, 2026

Martin Anderson

An AI-generated image: a nasally-endowed robot smells a flower in NYC's central park. GPT-image-1 and Qwen Edit 5209.

एक नए कृत्रिम बुद्धिमत्ता डेटासेट में मशीनों को गंध सिखाने के लिए गंध डेटा को छवियों के साथ जोड़ा जाता है, जिससे मॉडल गंध को वस्तुओं, दृश्यों और सामग्रियों से मिलाने में सक्षम होते हैं।

शायद इसलिए कि गंध-आउटपुट मशीनों का इतना जटिल इतिहास रहा है, गंध कृत्रिम बुद्धिमत्ता अनुसंधान साहित्य में एक कम उपेक्षित इंद्रियां है। जब तक आप एक और प्रविष्टि नहीं बना रहे थे जो एक शताब्दी से अधिक समय से चली आ रही स्मेल-ओ-विजन सागा में, उपयोग के मामले हमेशा छवि, ऑडियो और वीडियो डेटासेट की तुलना में और उनसे प्रशिक्षित कृत्रिम बुद्धिमत्ता मॉडल की तुलना में ‘निचे’ की तुलना में लगते हैं।

वास्तव में, बम कुत्तों, कैडेवर कुत्तों, बीमारी सूंघने वाले कुत्तों, और विभिन्न प्रकार के कैनाइन स्निफर इकाइयों द्वारा प्रदान की जाने वाली पता लगाने की सुविधाओं को स्वचालित करने, औद्योगिक बनाने और लोकप्रिय बनाने की संभावना नगरपालिका और सुरक्षा सेवाओं में एक उल्लेखनीय लाभ होगी। मांग के बावजूद, प्रशिक्षण और पता लगाने वाले कुत्तों को बनाए रखना एक महंगा व्यवसाय है जो हमेशा अच्छा मूल्य प्रदान नहीं करता है।

अब तक, इस अध्ययन क्षेत्र में जो शोध हुआ है, वह अधिकांश भाग के लिए प्रयोगशाला में सीमित रहा है, जिसमें आमतौर पर हाथ से तैयार किए गए विशेषताओं वाले संग्रह शामिल हैं – एक प्रोफ़ाइल जो अधिक बेस्पोक कॉटेज-उद्योग समाधानों की तुलना में औद्योगिक अनुप्रयोगों की ओर झुकी हुई है।

एक नाक से आगे

इस थोड़े फुसफुसे माहौल में एक दिलचस्प नई अकादमिक/उद्योग सहयोग आता है जिसमें शोधकर्ताओं की एक टीम ने न्यूयॉर्क शहर में विभिन्न गंधों को कई महीनों तक सूचीबद्ध किया – और पहली बार, गंध के साथ जुड़ी छवियों को इकट्ठा किया:

नोट केंद्रीय सेंसर, गंध संवेदक उपकरण की ‘नाक’। केवल गंध पर प्रशिक्षित, मॉडल अनुमान लगाता है कि यह ग्रेनाइट, प्लास्टिक या चमड़े की गंध ले रहा है – और यहां तक कि पहचानता है कि यह किस कमरे में है, बिना एक भी पिक्सल देखे। स्रोत

इस शोध ने नए कार्य के लेखकों को विशाल लोकप्रिय कंट्रास्टिव लैंग्वेज-इमेज प्रीट्रेनिंग (क्लिप) फ्रेमवर्क पर एक स्पिन तैयार करने के लिए प्रेरित किया है, जो पाठ और छवियों को जोड़ता है, कंट्रास्टिव ओल्फैक्शन-इमेज प्रीट्रेनिंग (सीओआईपी) के रूप में – जो गंध और छवियों को जोड़ता है।

शीर्ष: प्राकृतिक सेटिंग्स में एक कैमरा-ई-नोज रिग का उपयोग करके सिंक्रोनाइज्ड वीडियो और गंध संवेदक डेटा कैप्चर किया जाता है। नीचे बाएं (बी): क्रॉस-मॉडल स्व-पर्यवेक्षण के माध्यम से एक संयुक्त एम्बेडिंग सीखी जाती है। (सी): प्रणाली केवल एक गंध प्रश्न के आधार पर दृश्य मेल खाती है। (डी): व्यक्तिगत गंध नमूनों का उपयोग पर्यावरण, वस्तु, और सामग्री श्रेणियों को वर्गीकृत करने के लिए किया जाता है। (ई): दृश्य इनपुट के बिना घास जैसी उच्च समानता वाली गंधों को प्रतिष्ठापित किया जाता है। स्रोत

नया डेटासेट, न्यू यॉर्क स्मेल्स नामक, 7,000 गंध-छवि जोड़े शामिल हैं जिनमें 3,500 अलग-अलग वस्तुएं हैं। परीक्षणों में प्रशिक्षित होने पर, नए डेटा ने लोकप्रिय हाथ से तैयार किए गए विशेषताओं को पार कर लिया जो पहले के समान डेटासेट में थीं।

लेखकों को उम्मीद है कि उनका पहला प्रयास बाद के और अनुवर्ती कार्य के लिए मार्ग प्रशस्त करेगा जो गंध पता लगाने वाली प्रणालियों को विकसित करने के लिए है जो जंगली में संचालित होती हैं, जैसे कि स्निफर कुत्ते करते हैं*:

‘हम इस डेटासेट को जंगल में बहुमोडल गंध धारणा की ओर एक कदम के रूप में देखते हैं, साथ ही दृष्टि को गंध से जोड़ने की दिशा में एक कदम। जबकि गंध परंपरागत रूप से प्रतिबंधित सेटिंग्स में संपर्क की जाती है, जैसे कि गुणवत्ता आश्वासन, प्राकृतिक सेटिंग्स में कई अनुप्रयोग हैं।

‘उदाहरण के लिए, जैसे हम, मनुष्य, लगातार अपनी गंध की भावना का उपयोग भोजन की गुणवत्ता का मूल्यांकन करने, खतरों की पहचान करने और अदृश्य वस्तुओं का पता लगाने के लिए करते हैं।

‘इसके अलावा, कई जानवर, जैसे कुत्ते, भालू, और चूहे, सुपरमैन गंध क्षमताएं दिखाते हैं, जो सुझाव देते हैं कि मानव गंध धारणा मशीन की क्षमताओं की सीमा से बहुत दूर है।’

हालांकि नया पत्र, न्यू यॉर्क स्मेल्स: एक बड़ा बहुमोडल डेटासेट गंध के लिए नामक, वादा करता है कि डेटा और कोड जारी किए जाएंगे, एक 27GB डेटा फ़ाइल पहले से ही पेपर के परियोजना साइट के माध्यम से उपलब्ध है। पेपर कोलंबिया विश्वविद्यालय, कॉर्नेल विश्वविद्यालय, और ओस्मो लैब्स के नौ शोधकर्ताओं द्वारा तैयार किया गया था।

विधि

नई संग्रह के लिए सामग्री एकत्र करने के लिए, शोधकर्ताओं ने साइरानोस 320 इलेक्ट्रॉनिक नाक का उपयोग किया, जिसमें आगे की ओर एक आईफ़ोन माउंट किया गया था ताकि गंध के साथ क्या देखा जा रहा था उसे कैप्चर किया जा सके:

एक हाथ से पकड़े जाने वाले सेंसर रिग वीडियो और गंध डेटा को एक साइरानोस 320 ई-नोज पर एक आईफ़ोन कैमरा माउंट करके एकत्र करता है। स्नाउट वस्तुओं पर लक्षित होता है, जबकि निकास और पुर्जे इनलेट वायु प्रवाह को नमूनाकरण के दौरान प्रबंधित करते हैं। एक आरजीबी-डी कैमरा गहराई को कैप्चर करता है, जबकि वोलेटाइल ऑर्गेनिक कंपाउंड (वीओसी) केंद्रीकरण, तापमान, और आर्द्रता एक एकीकृत सेंसर के माध्यम से रिकॉर्ड किए जाते हैं, जिसमें एक प्रोपोर्शनल-इंटीग्रल-डेरिवेटिव (पीआईडी) मॉड्यूल और पर्यावरण अनुसंधान शामिल है।

साइरानोस डिवाइस 2Hz पर चलता है, 32-आयामी गंध समय-चरण रिकॉर्ड करता है। वोलेटाइल ऑर्गेनिक कंपाउंड (वीओसी) केंद्रीकरण को मिनीपीआईडी2 पीपीएम डब्ल्यूआर सेंसर के साथ रिकॉर्ड किया जाता है।

पोर्टेबल यूनिट एक निम्बल सेंसर के रूप में कार्य करता है, जो एक अधिक कम्प्यूट-योग्य मोबाइल स्टेशन को डेटा रिले करता है जो प्रोसेसिंग के लिए जिम्मेदार होता है।

लक्ष्य गंध को संदर्भ में रखने के लिए, एक ‘बेसलाइन गंध’ पंजीकृत की जाती है, इससे पहले कि अधिक विशिष्ट वस्तु को साइरानोस के ‘स्नाउट’ के साथ सीधे लक्षित किया जाए। पर्यावरण नमूना तब इकट्ठा किया जाता है जब मुख्य गंध स्रोत से दूर एक साइड-पोर्ट से इकट्ठा किया जाता है, ताकि यह सुनिश्चित किया जा सके कि यह मुख्य गंध स्रोत से दूर है और प्रदूषित नहीं है।

दो नमूने मुख्य ग्रहण के माध्यम से लिए जाते हैं, प्रत्येक 10-सेकंड रिकॉर्डिंग वस्तु के चारों ओर एक अलग स्थिति से कैप्चर की जाती है, जो डेटा दक्षता में सुधार करती है। नमूनों को तब एक 28×32 मैट्रिक्स बनाने के लिए एक साथ जोड़ दिया जाता है, जो पूर्ण गंध माप का प्रतिनिधित्व करता है:

यह उदाहरण एक फूल के लिए संकेत और संबंधित छवि दिखाता है। पूर्ण गंध संकेत 14-फ्रेम एम्बिएंट बेसलाइन के साथ दो 10-सेकंड नमूनों को जोड़कर बनाया जाता है जो लक्ष्य वस्तु के चारों ओर विभिन्न कोणों से लिए जाते हैं।

डेटा और परीक्षण

दृश्य-भाषा मॉडल (वीएलएम) का उपयोग आईफ़ोन द्वारा कैप्चर की गई वस्तुओं और सामग्रियों को स्वचालित रूप से लेबल करने के लिए किया गया था, जीपीटी-4ओ का उपयोग इस कार्य के लिए किया गया था; हालांकि, दृश्य श्रेणियां मैन्युअल रूप से लेबल की गईं:

परियोजना में पकड़े गए विभिन्न गंध स्रोतों और पर्यावरणों को विस्तार से दर्शाने वाली एक विस्तृत चित्रण का एक छोटा सा नमूना।

डेटासेट को प्रशिक्षण और मान्यकरण विभाजन में विभाजित किया गया था, प्रत्येक वस्तु के दोनों नमूनों को एक ही विभाजन में सौंपा गया था ताकि क्रॉस-कंटैमिनेशन से बचा जा सके। अंतिम संग्रह में 7,000 गंध-दृष्टि जोड़े शामिल हैं जो 3,500 अनलेबल्ड वस्तुओं से लिए गए हैं, साथ ही 70 घंटे का वीडियो और 196,000 समय-चरण का कच्चा गंध डेटा दोनों बेसलाइन और नमूना चरणों से है।

डेटा को 60 सत्रों में दो महीने की अवधि में एकत्र किया गया था, जिसमें पार्क, विश्वविद्यालय की इमारतें, कार्यालय, सड़कें, पुस्तकालय, अपार्टमेंट और भोजन कक्ष शामिल थे, प्रत्येक स्थान पर कई सत्र आयोजित किए गए थे। परिणामी डेटासेट में 41% आउटडोर और 59% इनडोर वातावरण शामिल हैं।

सामान्य-उद्देश्य गंध प्रतिनिधित्व विकसित करने के लिए, लेखकों ने एक कंट्रास्टिव मॉडल को प्रशिक्षित किया ताकि डेटासेट से सिंक्रोनाइज्ड छवि-गंध जोड़े को जोड़ा जा सके। यह दृष्टिकोण, उपरोक्त सीओआईपी, एक हानि फ़ंक्शन का उपयोग करता है जो सीएलआईपी से अनुकूलित है ताकि सहवर्ती दृश्य और गंध संकेतों के एम्बेडिंग को एक साझा प्रतिनिधित्व स्थान में संरेखित किया जा सके।

प्रशिक्षण में एक दृश्य एनकोडर और एक गंध एनकोडर का उपयोग किया गया था, जिसका उद्देश्य मॉडल को सिखाना था कि गंध और छवियों को एक साझा प्रतिनिधित्व स्थान में एक साथ लाया जाए। परिणामी प्रतिनिधित्व डाउनस्ट्रीम कार्यों की एक श्रृंखला का समर्थन करते हैं, जिनमें गंध-से-छवि पुनर्प्राप्ति, दृश्य और वस्तु पहचान, सामग्री वर्गीकरण, और महीन गंध भेदभाव शामिल हैं।

मॉडल को दो प्रकार के गंध इनपुट का उपयोग करके प्रशिक्षित किया गया था: पूर्ण कच्चा सेंसर संकेत और एक कम हाथ से तैयार की गई सारांश जिसे गंध छाप कहा जाता है – व्यापक रूप से गंध अनुसंधान में उपयोग की जाने वाली विशेषताएं जो प्रत्येक सेंसर की प्रतिक्रिया को एक एकल संख्या में संकुचित करती हैं bằngी प्रतिरोध की तुलना करती हैं नमूनाकरण के दौरान प्रतिरोध के साथ औसत प्रतिरोध की तुलना करती हैं ambient बेसलाइन के दौरान।

क्रॉस-मॉडल रिट्रीवल

क्रॉस-मॉडल रिट्रीवल का मूल्यांकन गंध नमूने और इसके जोड़े छवि को एक साझा प्रतिनिधित्व स्थान में एम्बेड करने और परीक्षण करने के द्वारा किया गया था कि क्या सही छवि को केवल गंध इनपुट के आधार पर पुनर्प्राप्त किया जा सकता है।

रैंकिंग इस स्थान में गंध प्रश्न के लिए छवि एम्बेडिंग की निकटता द्वारा निर्धारित की गई थी, और प्रदर्शन का मूल्यांकन माध्य रैंक, मध्य रैंक, और रिकॉल के माध्यम से किया गया था कई सीमाओं पर:

विभिन्न गंध एनकोडर के लिए क्रॉस-मॉडल रिट्रीवल सटीकता, जो दिखाती है कि प्रत्येक मॉडल एक गंध प्रश्न से सही छवि की पहचान कितनी अच्छी तरह करता है। परिणाम वास्तुकला की तुलना करते हैं जो कच्चे गंध संकेतों पर प्रशिक्षित हैं और जो गंध छाप का उपयोग करते हैं।

इस संबंध में, लेखक कहते हैं:

‘कंट्रास्टिव प्रीट्रेनिंग गंध छाप का उपयोग करके सभी मेट्रिक्स में मौका से बेहतर प्रदर्शन करती है। हालांकि, कच्चे गंध संकेत पर गंध एनकोडर को प्रशिक्षित करने से गंध छाप एनकोडर की तुलना में महत्वपूर्ण सुधार होता है, स्वायत्त रूप से वास्तुकला की।

‘यह कच्चे गंध डेटा में मौजूद समृद्ध जानकारी को दर्शाता है, जो दृष्टि और गंध के बीच मजबूत क्रॉस-मॉडल संबंधों को अनलॉक करता है।’

स्रोत पत्र में सातवीं चित्रण का एक विवरण, जो यहां अर्थपूर्ण रूप से पुनरुत्पादित करने के लिए बहुत संक्षिप्त है। यहां, क्रॉस-मॉडल रिट्रीवल के उदाहरण दिखाए गए हैं जो दिखाते हैं कि मॉडल गंध को मेल खाने वाली छवियों से जोड़ता है। प्रत्येक पंक्ति एक गंध प्रश्न से शुरू होती है, जिसके बाद साझा एम्बेडिंग स्थान में शीर्ष रैंक वाली छवि भविष्यवाणियां होती हैं। प्रत्येक प्रश्न के लिए सही छवि हरे रंग से घेरी हुई है, जो दिखाती है कि पुस्तकों, पौधों, मैसनरी, और अन्य सामग्रियों से गंध मॉडल को दृश्य और सेमेंटिक रूप से संबंधित दृश्यों की ओर आकर्षित करती है।

लेखक यह भी नोट करते हैं कि रिट्रीवल परिणामों में स्पष्ट सेमेंटिक पैटर्न दिखाई देते हैं:

‘हमारे मॉडल की रिट्रीवल अक्सर सेमेंटिक समूहों को दिखाती हैं। पुस्तक की गंध अन्य पुस्तकों की छवियों को पुनर्प्राप्त करती है, पत्तियों की गंध पत्तियों की छवियों को पुनर्प्राप्त करती है।

‘इन परिणामों से सुझाव मिलता है कि सीखा गया प्रतिनिधित्व अर्थपूर्ण क्रॉस-मॉडल संरचना को कैप्चर करता है।’

दृश्य, वस्तु और सामग्री मान्यता

मॉडल की क्षमता का मूल्यांकन किया गया था जो गंध को पहचाने बिना दृश्य इनपुट के बिना गंध के आधार पर दृश्य, वस्तुओं और सामग्रियों को पहचान सकता है; इस उद्देश्य से, एक रैखिक प्रोब (एक सरल वर्गीकरणकर्ता जो जमे हुए प्रतिनिधित्व पर प्रशिक्षित है) का उपयोग यह मूल्यांकन करने के लिए किया गया था कि सीखे गए गंध एम्बेडिंग में कितनी जानकारी एन्कोड की गई है।

लेबल प्रशिक्षण सेट में जोड़ी गई छवियों से जीपीटी-4ओ का उपयोग करके प्राप्त किए गए थे – लेकिन वर्गीकरण के दौरान केवल गंध संकेत का उपयोग किया गया था।

कई प्रकार के एनकोडर परीक्षण किए गए थे: कुछ यादृच्छिक रूप से आरंभीकृत, कुछ शून्य से प्रशिक्षित, और अन्य को कंट्रास्टिव लर्निंग का उपयोग करके एक साझा प्रतिनिधित्व स्थान में गंध और दृष्टि को संरेखित करने के लिए प्रशिक्षित किया गया था, कच्चे डेटा और गंध छाप का मूल्यांकन किया गया था:

दृश्य, सामग्री और वस्तुओं की वर्गीकरण सटीकता का मूल्यांकन केवल गंध संकेतों का उपयोग करके किया गया था। कच्चे सेंसर इनपुट ने गंध छाप को बेहतर प्रदर्शन किया, जिसमें स्क्रैच से प्रशिक्षित सीएनएन सबसे उच्च परिणाम दिए, जिनमें दृश्यों के लिए 99.5% शामिल थे। एसएसएल प्रीट्रेनिंग ने कुछ मामलों में मदद की, लेकिन आमतौर पर पर्यवेक्षित प्रशिक्षण से पार की गई। यादृच्छिक-वजन वाले बेसलाइन से पता चलता है कि मॉडल क्षमता अकेले पर्याप्त साबित नहीं हुई।

महत्वपूर्ण रूप से, मॉडल ने कच्चे गंध इनपुट का उपयोग करने पर उच्च सटीकता प्राप्त की, विशेष रूप से क्रॉस-मॉडल पर्यवेक्षण के साथ प्रशिक्षित मॉडल में। लेखक टिप्पणी करते हैं**:

‘कच्चे सेंसर इनपुट पर प्रशिक्षित मॉडल भी हाथ से तैयार किए गए गंध छाप विशेषताओं की तुलना में उच्च सटीकता प्राप्त करते हैं। ये परिणाम दिखाते हैं कि कच्चे गंध संकेतों से गहरे शिक्षण हाथ से तैयार किए गए विशेषताओं की तुलना में काफी बेहतर है।’

महीन गंध भेदभाव

महीन गंध अंतर को सीखने की क्षमता का मूल्यांकन करने के लिए, एक बेंचमार्क दो घास प्रजातियों से बनाया गया था जो एक ही कैंपस लॉन पर सहजीवन करते हैं। छह 30 मिनट के सत्रों में वैकल्पिक नमूने एकत्र किए गए, जिससे 256 उदाहरण प्राप्त हुए। एक रैखिक वर्गीकरणकर्ता को क्रॉस-मॉडल कंट्रास्टिव लर्निंग से विशेषताओं पर प्रशिक्षित किया गया था, और 42 नमूनों के एक अलग सेट पर मूल्यांकन किया गया था:

घास प्रजातियों की वर्गीकरण सटीकता केवल गंध से। मॉडल की क्षमता का मूल्यांकन किया गया था जो दो दृश्य रूप से समान घास प्रकार के बीच अंतर करने में सक्षम थे, केवल गंध इनपुट का उपयोग करके। प्रदर्शन की तुलना गंध छाप और कच्चे सेंसर डेटा के बीच की गई, मॉडल को या तो यादृच्छिक रूप से आरंभीकृत किया गया, शून्य से प्रशिक्षित, या स्व-पर्यवेक्षित शिक्षण (एसएसएल) का उपयोग करके प्रशिक्षित किया गया, इसके बाद एक रैखिक प्रोब का उपयोग किया गया। कच्चे गंध संकेतों के साथ एसएसएल का उपयोग करके सबसे उच्च सटीकता, 92.9% हासिल की गई, जो दर्शाती है कि महीन गंध अंतर को कच्चे इनपुट और दृष्टि-निर्देशित प्रशिक्षण के माध्यम से सबसे अच्छी तरह से पकड़ा जा सकता है।

यहां शोधकर्ता कहते हैं:

‘कच्चे गंध संकेत पर प्रशिक्षण (हाथ से तैयार किए गए विशेषताओं के बजाय) सबसे उच्च सटीकता प्राप्त करता है।

‘इन परिणामों से सुझाव मिलता है कि गंध-दृष्टि शिक्षण अधिक महीन गंध अंतर को संरक्षित करता है और गंध छाप के साथ सीखने की तुलना में दृष्टि पर्यवेक्षण के माध्यम से इस जानकारी का शोषण करने में मदद करता है।’

निष्कर्ष

हालांकि गंध संश्लेषण एक ऐसी समस्या लगती है जो भविष्य में कुछ समय तक असुलझी रहेगी, एक प्रभावी और सस्ती जंगल में गंध विश्लेषण प्रणाली का बहुत बड़ा потен्षियल है, न केवल पुलिस, सुरक्षा और चिकित्सा उद्देश्यों के लिए, बल्कि गुणवत्ता जीवन और शहरी निगरानी के लिए भी।

वर्तमान में, शामिल उपकरण निशे और आमतौर पर बहुत महंगा है; इसलिए, ‘गंध कृत्रिम बुद्धिमत्ता’ में वास्तविक प्रगति के लिए एक दूरदर्शी और सस्ती सेंसर की आवश्यकता होगी जो रास्पबेरी पीआई की भावना में है।

* मैंने लेखकों के इनलाइन उद्धरणों को हाइपरलिंक में परिवर्तित किया है।

** कृपया ध्यान दें कि आगे की चित्रण (आंकड़ा 8) स्रोत पत्र में उपलब्ध हैं, लेकिन उन्हें उस संदर्भ में देखना सबसे अच्छा है।

पहली बार शुक्रवार, 28 नवंबर, 2025 को प्रकाशित

Martin Anderson

मशीन लर्निंग पर लेखक, मानव इमेज सिंथेसिस में डोमेन विशेषज्ञ। मेटाफिजिक.एआई में अनुसंधान सामग्री के पूर्व प्रमुख।
व्यक्तिगत साइट: martinanderson.ai
संपर्क: [email protected]
ट्विटर: @manders_ai