Connect with us

рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛ рд╡рд┐рдХрд╛рд╕ рдореЗрдВ рдЧрдВрдз рдХреА рднрд╛рд╡рдирд╛ рд▓рд╛рдирд╛

Anderson рдХрд╛ рдПрдВрдЧрд▓

рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛ рд╡рд┐рдХрд╛рд╕ рдореЗрдВ рдЧрдВрдз рдХреА рднрд╛рд╡рдирд╛ рд▓рд╛рдирд╛

mm
An AI-generated image: a nasally-endowed robot smells a flower in NYC's central park. GPT-image-1 and Qwen Edit 5209.

एक नए कृत्रिम बुद्धिमत्ता डेटासेट में मशीनों को गंध सिखाने के लिए गंध डेटा को छवियों के साथ जोड़ा जाता है, जिससे मॉडल गंध को वस्तुओं, दृश्यों और सामग्रियों से मिलाने में सक्षम होते हैं।

शायद इसलिए कि गंध-आउटपुट मशीनों का इतना जटिल इतिहास रहा है, गंध कृत्रिम बुद्धिमत्ता अनुसंधान साहित्य में एक कम उपेक्षित इंद्रियां है। जब तक आप एक और प्रविष्टि नहीं बना रहे थे जो एक शताब्दी से अधिक समय से चली आ रही स्मेल-ओ-विजन सागा में, उपयोग के मामले हमेशा छवि, ऑडियो और वीडियो डेटासेट की तुलना में और उनसे प्रशिक्षित कृत्रिम बुद्धिमत्ता मॉडल की तुलना में ‘निचे’ की तुलना में लगते हैं।

वास्तव में, बम कुत्तों, कैडेवर कुत्तों, बीमारी सूंघने वाले कुत्तों, और विभिन्न प्रकार के कैनाइन स्निफर इकाइयों द्वारा प्रदान की जाने वाली पता लगाने की सुविधाओं को स्वचालित करने, औद्योगिक बनाने और लोकप्रिय बनाने की संभावना नगरपालिका और सुरक्षा सेवाओं में एक उल्लेखनीय लाभ होगी। मांग के बावजूद, प्रशिक्षण और पता लगाने वाले कुत्तों को बनाए रखना एक महंगा व्यवसाय है जो हमेशा अच्छा मूल्य प्रदान नहीं करता है।

अब तक, इस अध्ययन क्षेत्र में जो शोध हुआ है, वह अधिकांश भाग के लिए प्रयोगशाला में सीमित रहा है, जिसमें आमतौर पर हाथ से तैयार किए गए विशेषताओं वाले संग्रह शामिल हैं – एक प्रोफ़ाइल जो अधिक बेस्पोक कॉटेज-उद्योग समाधानों की तुलना में औद्योगिक अनुप्रयोगों की ओर झुकी हुई है।

एक नाक से आगे

इस थोड़े फुसफुसे माहौल में एक दिलचस्प नई अकादमिक/उद्योग सहयोग आता है जिसमें शोधकर्ताओं की एक टीम ने न्यूयॉर्क शहर में विभिन्न गंधों को कई महीनों तक सूचीबद्ध किया – और पहली बार, गंध के साथ जुड़ी छवियों को इकट्ठा किया:

рдиреЛрдЯ рдХреЗрдВрджреНрд░реАрдп рд╕реЗрдВрд╕рд░, рдЧрдВрдз рд╕рдВрд╡реЗрджрдХ рдЙрдкрдХрд░рдг рдХреА 'рдирд╛рдХ'ред рдХреЗрд╡рд▓ рдЧрдВрдз рдкрд░ рдкреНрд░рд╢рд┐рдХреНрд╖рд┐рдд, рдореЙрдбрд▓ рдЕрдиреБрдорд╛рди рд▓рдЧрд╛рддрд╛ рд╣реИ рдХрд┐ рдпрд╣ рдЧреНрд░реЗрдирд╛рдЗрдЯ, рдкреНрд▓рд╛рд╕реНрдЯрд┐рдХ рдпрд╛ рдЪрдордбрд╝реЗ рдХреА рдЧрдВрдз рд▓реЗ рд░рд╣рд╛ рд╣реИ - рдФрд░ рдпрд╣рд╛рдВ рддрдХ рдХрд┐ рдкрд╣рдЪрд╛рдирддрд╛ рд╣реИ рдХрд┐ рдпрд╣ рдХрд┐рд╕ рдХрдорд░реЗ рдореЗрдВ рд╣реИ, рдмрд┐рдирд╛ рдПрдХ рднреА рдкрд┐рдХреНрд╕рд▓ рджреЗрдЦреЗред рд╕реНрд░реЛрдд: https://smell.cs.columbia.edu/

नोट केंद्रीय सेंसर, गंध संवेदक उपकरण की ‘नाक’। केवल गंध पर प्रशिक्षित, मॉडल अनुमान लगाता है कि यह ग्रेनाइट, प्लास्टिक या चमड़े की गंध ले रहा है – और यहां तक कि पहचानता है कि यह किस कमरे में है, बिना एक भी पिक्सल देखे। स्रोत

इस शोध ने नए कार्य के लेखकों को विशाल लोकप्रिय कंट्रास्टिव लैंग्वेज-इमेज प्रीट्रेनिंग (क्लिप) फ्रेमवर्क पर एक स्पिन तैयार करने के लिए प्रेरित किया है, जो पाठ और छवियों को जोड़ता है, कंट्रास्टिव ओल्फैक्शन-इमेज प्रीट्रेनिंग (सीओआईपी) के रूप में – जो गंध और छवियों को जोड़ता है।

рд╢реАрд░реНрд╖: рдкреНрд░рд╛рдХреГрддрд┐рдХ рд╕реЗрдЯрд┐рдВрдЧреНрд╕ рдореЗрдВ рдПрдХ рдХреИрдорд░рд╛-рдИ-рдиреЛрдЬ рд░рд┐рдЧ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдХреЗ рд╕рд┐рдВрдХреНрд░реЛрдирд╛рдЗрдЬреНрдб рд╡реАрдбрд┐рдпреЛ рдФрд░ рдЧрдВрдз рд╕рдВрд╡реЗрджрдХ рдбреЗрдЯрд╛ рдХреИрдкреНрдЪрд░ рдХрд┐рдпрд╛ рдЬрд╛рддрд╛ рд╣реИред рдиреАрдЪреЗ рдмрд╛рдПрдВ (рдмреА): рдХреНрд░реЙрд╕-рдореЙрдбрд▓ рд╕реНрд╡-рдкрд░реНрдпрд╡реЗрдХреНрд╖рдг рдХреЗ рдорд╛рдзреНрдпрдо рд╕реЗ рдПрдХ рд╕рдВрдпреБрдХреНрдд рдПрдореНрдмреЗрдбрд┐рдВрдЧ рд╕реАрдЦреА рдЬрд╛рддреА рд╣реИред (рд╕реА): рдкреНрд░рдгрд╛рд▓реА рдХреЗрд╡рд▓ рдПрдХ рдЧрдВрдз рдкреНрд░рд╢реНрди рдХреЗ рдЖрдзрд╛рд░ рдкрд░ рджреГрд╢реНрдп рдореЗрд▓ рдЦрд╛рддреА рд╣реИред (рдбреА): рд╡реНрдпрдХреНрддрд┐рдЧрдд рдЧрдВрдз рдирдореВрдиреЛрдВ рдХрд╛ рдЙрдкрдпреЛрдЧ рдкрд░реНрдпрд╛рд╡рд░рдг, рд╡рд╕реНрддреБ, рдФрд░ рд╕рд╛рдордЧреНрд░реА рд╢реНрд░реЗрдгрд┐рдпреЛрдВ рдХреЛ рд╡рд░реНрдЧреАрдХреГрдд рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдХрд┐рдпрд╛ рдЬрд╛рддрд╛ рд╣реИред (рдИ): рджреГрд╢реНрдп рдЗрдирдкреБрдЯ рдХреЗ рдмрд┐рдирд╛ рдШрд╛рд╕ рдЬреИрд╕реА рдЙрдЪреНрдЪ рд╕рдорд╛рдирддрд╛ рд╡рд╛рд▓реА рдЧрдВрдзреЛрдВ рдХреЛ рдкреНрд░рддрд┐рд╖реНрдард╛рдкрд┐рдд рдХрд┐рдпрд╛ рдЬрд╛рддрд╛ рд╣реИред рд╕реНрд░реЛрдд: https://arxiv.org/pdf/2511.20544

शीर्ष: प्राकृतिक सेटिंग्स में एक कैमरा-ई-नोज रिग का उपयोग करके सिंक्रोनाइज्ड वीडियो और गंध संवेदक डेटा कैप्चर किया जाता है। नीचे बाएं (बी): क्रॉस-मॉडल स्व-पर्यवेक्षण के माध्यम से एक संयुक्त एम्बेडिंग सीखी जाती है। (सी): प्रणाली केवल एक गंध प्रश्न के आधार पर दृश्य मेल खाती है। (डी): व्यक्तिगत गंध नमूनों का उपयोग पर्यावरण, वस्तु, और सामग्री श्रेणियों को वर्गीकृत करने के लिए किया जाता है। (ई): दृश्य इनपुट के बिना घास जैसी उच्च समानता वाली गंधों को प्रतिष्ठापित किया जाता है। स्रोत

नया डेटासेट, न्यू यॉर्क स्मेल्स नामक, 7,000 गंध-छवि जोड़े शामिल हैं जिनमें 3,500 अलग-अलग वस्तुएं हैं। परीक्षणों में प्रशिक्षित होने पर, नए डेटा ने लोकप्रिय हाथ से तैयार किए गए विशेषताओं को पार कर लिया जो पहले के समान डेटासेट में थीं।

लेखकों को उम्मीद है कि उनका पहला प्रयास बाद के और अनुवर्ती कार्य के लिए मार्ग प्रशस्त करेगा जो गंध पता लगाने वाली प्रणालियों को विकसित करने के लिए है जो जंगली में संचालित होती हैं, जैसे कि स्निफर कुत्ते करते हैं*:

‘हम इस डेटासेट को जंगल में बहुमोडल गंध धारणा की ओर एक कदम के रूप में देखते हैं, साथ ही दृष्टि को गंध से जोड़ने की दिशा में एक कदम। जबकि गंध परंपरागत रूप से प्रतिबंधित सेटिंग्स में संपर्क की जाती है, जैसे कि गुणवत्ता आश्वासन, प्राकृतिक सेटिंग्स में कई अनुप्रयोग हैं।

‘उदाहरण के लिए, जैसे हम, मनुष्य, लगातार अपनी गंध की भावना का उपयोग भोजन की गुणवत्ता का मूल्यांकन करने, खतरों की पहचान करने और अदृश्य वस्तुओं का पता लगाने के लिए करते हैं।

‘इसके अलावा, कई जानवर, जैसे कुत्ते, भालू, और चूहे, सुपरमैन गंध क्षमताएं दिखाते हैं, जो सुझाव देते हैं कि मानव गंध धारणा मशीन की क्षमताओं की सीमा से बहुत दूर है।’

हालांकि नया पत्र, न्यू यॉर्क स्मेल्स: एक बड़ा बहुमोडल डेटासेट गंध के लिए नामक, वादा करता है कि डेटा और कोड जारी किए जाएंगे, एक 27GB डेटा फ़ाइल पहले से ही पेपर के परियोजना साइट के माध्यम से उपलब्ध है। पेपर कोलंबिया विश्वविद्यालय, कॉर्नेल विश्वविद्यालय, और ओस्मो लैब्स के नौ शोधकर्ताओं द्वारा तैयार किया गया था।

विधि

नई संग्रह के लिए सामग्री एकत्र करने के लिए, शोधकर्ताओं ने साइरानोस 320 इलेक्ट्रॉनिक नाक का उपयोग किया, जिसमें आगे की ओर एक आईफ़ोन माउंट किया गया था ताकि गंध के साथ क्या देखा जा रहा था उसे कैप्चर किया जा सके:

рдПрдХ рд╣рд╛рде рд╕реЗ рдкрдХрдбрд╝реЗ рдЬрд╛рдиреЗ рд╡рд╛рд▓реЗ рд╕реЗрдВрд╕рд░ рд░рд┐рдЧ рд╡реАрдбрд┐рдпреЛ рдФрд░ рдЧрдВрдз рдбреЗрдЯрд╛ рдХреЛ рдПрдХ рд╕рд╛рдЗрд░рд╛рдиреЛрд╕ 320 рдИ-рдиреЛрдЬ рдкрд░ рдПрдХ рдЖрдИрдлрд╝реЛрди рдХреИрдорд░рд╛ рдорд╛рдЙрдВрдЯ рдХрд░рдХреЗ рдПрдХрддреНрд░ рдХрд░рддрд╛ рд╣реИред рд╕реНрдирд╛рдЙрдЯ рд╡рд╕реНрддреБрдУрдВ рдкрд░ рд▓рдХреНрд╖рд┐рдд рд╣реЛрддрд╛ рд╣реИ, рдЬрдмрдХрд┐ рдирд┐рдХрд╛рд╕ рдФрд░ рдкреБрд░реНрдЬреЗ рдЗрдирд▓реЗрдЯ рд╡рд╛рдпреБ рдкреНрд░рд╡рд╛рд╣ рдХреЛ рдирдореВрдирд╛рдХрд░рдг рдХреЗ рджреМрд░рд╛рди рдкреНрд░рдмрдВрдзрд┐рдд рдХрд░рддреЗ рд╣реИрдВред рдПрдХ рдЖрд░рдЬреАрдмреА-рдбреА рдХреИрдорд░рд╛ рдЧрд╣рд░рд╛рдИ рдХреЛ рдХреИрдкреНрдЪрд░ рдХрд░рддрд╛ рд╣реИ, рдЬрдмрдХрд┐ рд╡реЛрд▓реЗрдЯрд╛рдЗрд▓ рдСрд░реНрдЧреЗрдирд┐рдХ рдХрдВрдкрд╛рдЙрдВрдб (рд╡реАрдУрд╕реА) рдХреЗрдВрджреНрд░реАрдХрд░рдг, рддрд╛рдкрдорд╛рди, рдФрд░ рдЖрд░реНрджреНрд░рддрд╛ рдПрдХ рдПрдХреАрдХреГрдд рд╕реЗрдВрд╕рд░ рдХреЗ рдорд╛рдзреНрдпрдо рд╕реЗ рд░рд┐рдХреЙрд░реНрдб рдХрд┐рдП рдЬрд╛рддреЗ рд╣реИрдВ, рдЬрд┐рд╕рдореЗрдВ рдПрдХ рдкреНрд░реЛрдкреЛрд░реНрд╢рдирд▓-рдЗрдВрдЯреАрдЧреНрд░рд▓-рдбреЗрд░рд┐рд╡реЗрдЯрд┐рд╡ (рдкреАрдЖрдИрдбреА) рдореЙрдбреНрдпреВрд▓ рдФрд░ рдкрд░реНрдпрд╛рд╡рд░рдг рдЕрдиреБрд╕рдВрдзрд╛рди рд╢рд╛рдорд┐рд▓ рд╣реИред

एक हाथ से पकड़े जाने वाले सेंसर रिग वीडियो और गंध डेटा को एक साइरानोस 320 ई-नोज पर एक आईफ़ोन कैमरा माउंट करके एकत्र करता है। स्नाउट वस्तुओं पर लक्षित होता है, जबकि निकास और पुर्जे इनलेट वायु प्रवाह को नमूनाकरण के दौरान प्रबंधित करते हैं। एक आरजीबी-डी कैमरा गहराई को कैप्चर करता है, जबकि वोलेटाइल ऑर्गेनिक कंपाउंड (वीओसी) केंद्रीकरण, तापमान, और आर्द्रता एक एकीकृत सेंसर के माध्यम से रिकॉर्ड किए जाते हैं, जिसमें एक प्रोपोर्शनल-इंटीग्रल-डेरिवेटिव (पीआईडी) मॉड्यूल और पर्यावरण अनुसंधान शामिल है।

साइरानोस डिवाइस 2Hz पर चलता है, 32-आयामी गंध समय-चरण रिकॉर्ड करता है। वोलेटाइल ऑर्गेनिक कंपाउंड (वीओसी) केंद्रीकरण को मिनीपीआईडी2 पीपीएम डब्ल्यूआर सेंसर के साथ रिकॉर्ड किया जाता है।

पोर्टेबल यूनिट एक निम्बल सेंसर के रूप में कार्य करता है, जो एक अधिक कम्प्यूट-योग्य मोबाइल स्टेशन को डेटा रिले करता है जो प्रोसेसिंग के लिए जिम्मेदार होता है।

लक्ष्य गंध को संदर्भ में रखने के लिए, एक ‘बेसलाइन गंध’ पंजीकृत की जाती है, इससे पहले कि अधिक विशिष्ट वस्तु को साइरानोस के ‘स्नाउट’ के साथ सीधे लक्षित किया जाए। पर्यावरण नमूना तब इकट्ठा किया जाता है जब मुख्य गंध स्रोत से दूर एक साइड-पोर्ट से इकट्ठा किया जाता है, ताकि यह सुनिश्चित किया जा सके कि यह मुख्य गंध स्रोत से दूर है और प्रदूषित नहीं है।

दो नमूने मुख्य ग्रहण के माध्यम से लिए जाते हैं, प्रत्येक 10-सेकंड रिकॉर्डिंग वस्तु के चारों ओर एक अलग स्थिति से कैप्चर की जाती है, जो डेटा दक्षता में सुधार करती है। नमूनों को तब एक 28×32 मैट्रिक्स बनाने के लिए एक साथ जोड़ दिया जाता है, जो पूर्ण गंध माप का प्रतिनिधित्व करता है:

рдпрд╣ рдЙрджрд╛рд╣рд░рдг рдПрдХ рдлреВрд▓ рдХреЗ рд▓рд┐рдП рд╕рдВрдХреЗрдд рдФрд░ рд╕рдВрдмрдВрдзрд┐рдд рдЫрд╡рд┐ рджрд┐рдЦрд╛рддрд╛ рд╣реИред рдкреВрд░реНрдг рдЧрдВрдз рд╕рдВрдХреЗрдд 14-рдлреНрд░реЗрдо рдПрдореНрдмрд┐рдПрдВрдЯ рдмреЗрд╕рд▓рд╛рдЗрди рдХреЗ рд╕рд╛рде рджреЛ 10-рд╕реЗрдХрдВрдб рдирдореВрдиреЛрдВ рдХреЛ рдЬреЛрдбрд╝рдХрд░ рдмрдирд╛рдпрд╛ рдЬрд╛рддрд╛ рд╣реИ рдЬреЛ рд▓рдХреНрд╖реНрдп рд╡рд╕реНрддреБ рдХреЗ рдЪрд╛рд░реЛрдВ рдУрд░ рд╡рд┐рднрд┐рдиреНрди рдХреЛрдгреЛрдВ рд╕реЗ рд▓рд┐рдП рдЬрд╛рддреЗ рд╣реИрдВред

यह उदाहरण एक फूल के लिए संकेत और संबंधित छवि दिखाता है। पूर्ण गंध संकेत 14-फ्रेम एम्बिएंट बेसलाइन के साथ दो 10-सेकंड नमूनों को जोड़कर बनाया जाता है जो लक्ष्य वस्तु के चारों ओर विभिन्न कोणों से लिए जाते हैं।

डेटा और परीक्षण

दृश्य-भाषा मॉडल (वीएलएम) का उपयोग आईफ़ोन द्वारा कैप्चर की गई वस्तुओं और सामग्रियों को स्वचालित रूप से लेबल करने के लिए किया गया था, जीपीटी-4ओ का उपयोग इस कार्य के लिए किया गया था; हालांकि, दृश्य श्रेणियां मैन्युअल रूप से लेबल की गईं:

рдкрд░рд┐рдпреЛрдЬрдирд╛ рдореЗрдВ рдкрдХрдбрд╝реЗ рдЧрдП рд╡рд┐рднрд┐рдиреНрди рдЧрдВрдз рд╕реНрд░реЛрддреЛрдВ рдФрд░ рдкрд░реНрдпрд╛рд╡рд░рдгреЛрдВ рдХреЛ рд╡рд┐рд╕реНрддрд╛рд░ рд╕реЗ рджрд░реНрд╢рд╛рдиреЗ рд╡рд╛рд▓реА рдПрдХ рд╡рд┐рд╕реНрддреГрдд рдЪрд┐рддреНрд░рдг рдХрд╛ рдПрдХ рдЫреЛрдЯрд╛ рд╕рд╛ рдирдореВрдирд╛ред

परियोजना में पकड़े गए विभिन्न गंध स्रोतों और पर्यावरणों को विस्तार से दर्शाने वाली एक विस्तृत चित्रण का एक छोटा सा नमूना।

डेटासेट को प्रशिक्षण और मान्यकरण विभाजन में विभाजित किया गया था, प्रत्येक वस्तु के दोनों नमूनों को एक ही विभाजन में सौंपा गया था ताकि क्रॉस-कंटैमिनेशन से बचा जा सके। अंतिम संग्रह में 7,000 गंध-दृष्टि जोड़े शामिल हैं जो 3,500 अनलेबल्ड वस्तुओं से लिए गए हैं, साथ ही 70 घंटे का वीडियो और 196,000 समय-चरण का कच्चा गंध डेटा दोनों बेसलाइन और नमूना चरणों से है।

डेटा को 60 सत्रों में दो महीने की अवधि में एकत्र किया गया था, जिसमें पार्क, विश्वविद्यालय की इमारतें, कार्यालय, सड़कें, पुस्तकालय, अपार्टमेंट और भोजन कक्ष शामिल थे, प्रत्येक स्थान पर कई सत्र आयोजित किए गए थे। परिणामी डेटासेट में 41% आउटडोर और 59% इनडोर वातावरण शामिल हैं।

सामान्य-उद्देश्य गंध प्रतिनिधित्व विकसित करने के लिए, लेखकों ने एक कंट्रास्टिव मॉडल को प्रशिक्षित किया ताकि डेटासेट से सिंक्रोनाइज्ड छवि-गंध जोड़े को जोड़ा जा सके। यह दृष्टिकोण, उपरोक्त सीओआईपी, एक हानि फ़ंक्शन का उपयोग करता है जो सीएलआईपी से अनुकूलित है ताकि सहवर्ती दृश्य और गंध संकेतों के एम्बेडिंग को एक साझा प्रतिनिधित्व स्थान में संरेखित किया जा सके।

प्रशिक्षण में एक दृश्य एनकोडर और एक गंध एनकोडर का उपयोग किया गया था, जिसका उद्देश्य मॉडल को सिखाना था कि गंध और छवियों को एक साझा प्रतिनिधित्व स्थान में एक साथ लाया जाए। परिणामी प्रतिनिधित्व डाउनस्ट्रीम कार्यों की एक श्रृंखला का समर्थन करते हैं, जिनमें गंध-से-छवि पुनर्प्राप्ति, दृश्य और वस्तु पहचान, सामग्री वर्गीकरण, और महीन गंध भेदभाव शामिल हैं।

मॉडल को दो प्रकार के गंध इनपुट का उपयोग करके प्रशिक्षित किया गया था: पूर्ण कच्चा सेंसर संकेत और एक कम हाथ से तैयार की गई सारांश जिसे गंध छाप कहा जाता है – व्यापक रूप से गंध अनुसंधान में उपयोग की जाने वाली विशेषताएं जो प्रत्येक सेंसर की प्रतिक्रिया को एक एकल संख्या में संकुचित करती हैं bằngी प्रतिरोध की तुलना करती हैं नमूनाकरण के दौरान प्रतिरोध के साथ औसत प्रतिरोध की तुलना करती हैं ambient बेसलाइन के दौरान।

क्रॉस-मॉडल रिट्रीवल

क्रॉस-मॉडल रिट्रीवल का मूल्यांकन गंध नमूने और इसके जोड़े छवि को एक साझा प्रतिनिधित्व स्थान में एम्बेड करने और परीक्षण करने के द्वारा किया गया था कि क्या सही छवि को केवल गंध इनपुट के आधार पर पुनर्प्राप्त किया जा सकता है।

रैंकिंग इस स्थान में गंध प्रश्न के लिए छवि एम्बेडिंग की निकटता द्वारा निर्धारित की गई थी, और प्रदर्शन का मूल्यांकन माध्य रैंक, मध्य रैंक, और रिकॉल के माध्यम से किया गया था कई सीमाओं पर:

рд╡рд┐рднрд┐рдиреНрди рдЧрдВрдз рдПрдирдХреЛрдбрд░ рдХреЗ рд▓рд┐рдП рдХреНрд░реЙрд╕-рдореЙрдбрд▓ рд░рд┐рдЯреНрд░реАрд╡рд▓ рд╕рдЯреАрдХрддрд╛, рдЬреЛ рджрд┐рдЦрд╛рддреА рд╣реИ рдХрд┐ рдкреНрд░рддреНрдпреЗрдХ рдореЙрдбрд▓ рдПрдХ рдЧрдВрдз рдкреНрд░рд╢реНрди рд╕реЗ рд╕рд╣реА рдЫрд╡рд┐ рдХреА рдкрд╣рдЪрд╛рди рдХрд┐рддрдиреА рдЕрдЪреНрдЫреА рддрд░рд╣ рдХрд░рддрд╛ рд╣реИред рдкрд░рд┐рдгрд╛рдо рд╡рд╛рд╕реНрддреБрдХрд▓рд╛ рдХреА рддреБрд▓рдирд╛ рдХрд░рддреЗ рд╣реИрдВ рдЬреЛ рдХрдЪреНрдЪреЗ рдЧрдВрдз рд╕рдВрдХреЗрддреЛрдВ рдкрд░ рдкреНрд░рд╢рд┐рдХреНрд╖рд┐рдд рд╣реИрдВ рдФрд░ рдЬреЛ рдЧрдВрдз рдЫрд╛рдк рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рддреЗ рд╣реИрдВред

विभिन्न गंध एनकोडर के लिए क्रॉस-मॉडल रिट्रीवल सटीकता, जो दिखाती है कि प्रत्येक मॉडल एक गंध प्रश्न से सही छवि की पहचान कितनी अच्छी तरह करता है। परिणाम वास्तुकला की तुलना करते हैं जो कच्चे गंध संकेतों पर प्रशिक्षित हैं और जो गंध छाप का उपयोग करते हैं।

इस संबंध में, लेखक कहते हैं:

‘कंट्रास्टिव प्रीट्रेनिंग गंध छाप का उपयोग करके सभी मेट्रिक्स में मौका से बेहतर प्रदर्शन करती है। हालांकि, कच्चे गंध संकेत पर गंध एनकोडर को प्रशिक्षित करने से गंध छाप एनकोडर की तुलना में महत्वपूर्ण सुधार होता है, स्वायत्त रूप से वास्तुकला की।

‘यह कच्चे गंध डेटा में मौजूद समृद्ध जानकारी को दर्शाता है, जो दृष्टि और गंध के बीच मजबूत क्रॉस-मॉडल संबंधों को अनलॉक करता है।’

рд╕реНрд░реЛрдд рдкрддреНрд░ рдореЗрдВ рд╕рд╛рддрд╡реАрдВ рдЪрд┐рддреНрд░рдг рдХрд╛ рдПрдХ рд╡рд┐рд╡рд░рдг, рдЬреЛ рдпрд╣рд╛рдВ рдЕрд░реНрдердкреВрд░реНрдг рд░реВрдк рд╕реЗ рдкреБрдирд░реБрддреНрдкрд╛рджрд┐рдд рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдмрд╣реБрдд рд╕рдВрдХреНрд╖рд┐рдкреНрдд рд╣реИред рдпрд╣рд╛рдВ, рдХреНрд░реЙрд╕-рдореЙрдбрд▓ рд░рд┐рдЯреНрд░реАрд╡рд▓ рдХреЗ рдЙрджрд╛рд╣рд░рдг рджрд┐рдЦрд╛рдП рдЧрдП рд╣реИрдВ рдЬреЛ рджрд┐рдЦрд╛рддреЗ рд╣реИрдВ рдХрд┐ рдореЙрдбрд▓ рдЧрдВрдз рдХреЛ рдореЗрд▓ рдЦрд╛рдиреЗ рд╡рд╛рд▓реА рдЫрд╡рд┐рдпреЛрдВ рд╕реЗ рдЬреЛрдбрд╝рддрд╛ рд╣реИред рдкреНрд░рддреНрдпреЗрдХ рдкрдВрдХреНрддрд┐ рдПрдХ рдЧрдВрдз рдкреНрд░рд╢реНрди рд╕реЗ рд╢реБрд░реВ рд╣реЛрддреА рд╣реИ, рдЬрд┐рд╕рдХреЗ рдмрд╛рдж рд╕рд╛рдЭрд╛ рдПрдореНрдмреЗрдбрд┐рдВрдЧ рд╕реНрдерд╛рди рдореЗрдВ рд╢реАрд░реНрд╖ рд░реИрдВрдХ рд╡рд╛рд▓реА рдЫрд╡рд┐ рднрд╡рд┐рд╖реНрдпрд╡рд╛рдгрд┐рдпрд╛рдВ рд╣реЛрддреА рд╣реИрдВред рдкреНрд░рддреНрдпреЗрдХ рдкреНрд░рд╢реНрди рдХреЗ рд▓рд┐рдП рд╕рд╣реА рдЫрд╡рд┐ рд╣рд░реЗ рд░рдВрдЧ рд╕реЗ рдШреЗрд░реА рд╣реБрдИ рд╣реИ, рдЬреЛ рджрд┐рдЦрд╛рддреА рд╣реИ рдХрд┐ рдкреБрд╕реНрддрдХреЛрдВ, рдкреМрдзреЛрдВ, рдореИрд╕рдирд░реА, рдФрд░ рдЕрдиреНрдп рд╕рд╛рдордЧреНрд░рд┐рдпреЛрдВ рд╕реЗ рдЧрдВрдз рдореЙрдбрд▓ рдХреЛ рджреГрд╢реНрдп рдФрд░ рд╕реЗрдореЗрдВрдЯрд┐рдХ рд░реВрдк рд╕реЗ рд╕рдВрдмрдВрдзрд┐рдд рджреГрд╢реНрдпреЛрдВ рдХреА рдУрд░ рдЖрдХрд░реНрд╖рд┐рдд рдХрд░рддреА рд╣реИред

स्रोत पत्र में सातवीं चित्रण का एक विवरण, जो यहां अर्थपूर्ण रूप से पुनरुत्पादित करने के लिए बहुत संक्षिप्त है। यहां, क्रॉस-मॉडल रिट्रीवल के उदाहरण दिखाए गए हैं जो दिखाते हैं कि मॉडल गंध को मेल खाने वाली छवियों से जोड़ता है। प्रत्येक पंक्ति एक गंध प्रश्न से शुरू होती है, जिसके बाद साझा एम्बेडिंग स्थान में शीर्ष रैंक वाली छवि भविष्यवाणियां होती हैं। प्रत्येक प्रश्न के लिए सही छवि हरे रंग से घेरी हुई है, जो दिखाती है कि पुस्तकों, पौधों, मैसनरी, और अन्य सामग्रियों से गंध मॉडल को दृश्य और सेमेंटिक रूप से संबंधित दृश्यों की ओर आकर्षित करती है।

लेखक यह भी नोट करते हैं कि रिट्रीवल परिणामों में स्पष्ट सेमेंटिक पैटर्न दिखाई देते हैं:

‘हमारे मॉडल की रिट्रीवल अक्सर सेमेंटिक समूहों को दिखाती हैं। पुस्तक की गंध अन्य पुस्तकों की छवियों को पुनर्प्राप्त करती है, पत्तियों की गंध पत्तियों की छवियों को पुनर्प्राप्त करती है।

‘इन परिणामों से सुझाव मिलता है कि सीखा गया प्रतिनिधित्व अर्थपूर्ण क्रॉस-मॉडल संरचना को कैप्चर करता है।’

दृश्य, वस्तु और सामग्री मान्यता

मॉडल की क्षमता का मूल्यांकन किया गया था जो गंध को पहचाने बिना दृश्य इनपुट के बिना गंध के आधार पर दृश्य, वस्तुओं और सामग्रियों को पहचान सकता है; इस उद्देश्य से, एक रैखिक प्रोब (एक सरल वर्गीकरणकर्ता जो जमे हुए प्रतिनिधित्व पर प्रशिक्षित है) का उपयोग यह मूल्यांकन करने के लिए किया गया था कि सीखे गए गंध एम्बेडिंग में कितनी जानकारी एन्कोड की गई है।

लेबल प्रशिक्षण सेट में जोड़ी गई छवियों से जीपीटी-4ओ का उपयोग करके प्राप्त किए गए थे – लेकिन वर्गीकरण के दौरान केवल गंध संकेत का उपयोग किया गया था।

कई प्रकार के एनकोडर परीक्षण किए गए थे: कुछ यादृच्छिक रूप से आरंभीकृत, कुछ शून्य से प्रशिक्षित, और अन्य को कंट्रास्टिव लर्निंग का उपयोग करके एक साझा प्रतिनिधित्व स्थान में गंध और दृष्टि को संरेखित करने के लिए प्रशिक्षित किया गया था, कच्चे डेटा और गंध छाप का मूल्यांकन किया गया था:

рджреГрд╢реНрдп, рд╕рд╛рдордЧреНрд░реА рдФрд░ рд╡рд╕реНрддреБрдУрдВ рдХреА рд╡рд░реНрдЧреАрдХрд░рдг рд╕рдЯреАрдХрддрд╛ рдХрд╛ рдореВрд▓реНрдпрд╛рдВрдХрди рдХреЗрд╡рд▓ рдЧрдВрдз рд╕рдВрдХреЗрддреЛрдВ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдХреЗ рдХрд┐рдпрд╛ рдЧрдпрд╛ рдерд╛ред рдХрдЪреНрдЪреЗ рд╕реЗрдВрд╕рд░ рдЗрдирдкреБрдЯ рдиреЗ рдЧрдВрдз рдЫрд╛рдк рдХреЛ рдмреЗрд╣рддрд░ рдкреНрд░рджрд░реНрд╢рди рдХрд┐рдпрд╛, рдЬрд┐рд╕рдореЗрдВ рд╕реНрдХреНрд░реИрдЪ рд╕реЗ рдкреНрд░рд╢рд┐рдХреНрд╖рд┐рдд рд╕реАрдПрдирдПрди рд╕рдмрд╕реЗ рдЙрдЪреНрдЪ рдкрд░рд┐рдгрд╛рдо рджрд┐рдП, рдЬрд┐рдирдореЗрдВ рджреГрд╢реНрдпреЛрдВ рдХреЗ рд▓рд┐рдП 99.5% рд╢рд╛рдорд┐рд▓ рдереЗред рдПрд╕рдПрд╕рдПрд▓ рдкреНрд░реАрдЯреНрд░реЗрдирд┐рдВрдЧ рдиреЗ рдХреБрдЫ рдорд╛рдорд▓реЛрдВ рдореЗрдВ рдорджрдж рдХреА, рд▓реЗрдХрд┐рди рдЖрдорддреМрд░ рдкрд░ рдкрд░реНрдпрд╡реЗрдХреНрд╖рд┐рдд рдкреНрд░рд╢рд┐рдХреНрд╖рдг рд╕реЗ рдкрд╛рд░ рдХреА рдЧрдИред рдпрд╛рджреГрдЪреНрдЫрд┐рдХ-рд╡рдЬрди рд╡рд╛рд▓реЗ рдмреЗрд╕рд▓рд╛рдЗрди рд╕реЗ рдкрддрд╛ рдЪрд▓рддрд╛ рд╣реИ рдХрд┐ рдореЙрдбрд▓ рдХреНрд╖рдорддрд╛ рдЕрдХреЗрд▓реЗ рдкрд░реНрдпрд╛рдкреНрдд рд╕рд╛рдмрд┐рдд рдирд╣реАрдВ рд╣реБрдИред

दृश्य, सामग्री और वस्तुओं की वर्गीकरण सटीकता का मूल्यांकन केवल गंध संकेतों का उपयोग करके किया गया था। कच्चे सेंसर इनपुट ने गंध छाप को बेहतर प्रदर्शन किया, जिसमें स्क्रैच से प्रशिक्षित सीएनएन सबसे उच्च परिणाम दिए, जिनमें दृश्यों के लिए 99.5% शामिल थे। एसएसएल प्रीट्रेनिंग ने कुछ मामलों में मदद की, लेकिन आमतौर पर पर्यवेक्षित प्रशिक्षण से पार की गई। यादृच्छिक-वजन वाले बेसलाइन से पता चलता है कि मॉडल क्षमता अकेले पर्याप्त साबित नहीं हुई।

महत्वपूर्ण रूप से, मॉडल ने कच्चे गंध इनपुट का उपयोग करने पर उच्च सटीकता प्राप्त की, विशेष रूप से क्रॉस-मॉडल पर्यवेक्षण के साथ प्रशिक्षित मॉडल में। लेखक टिप्पणी करते हैं**:

‘कच्चे सेंसर इनपुट पर प्रशिक्षित मॉडल भी हाथ से तैयार किए गए गंध छाप विशेषताओं की तुलना में उच्च सटीकता प्राप्त करते हैं। ये परिणाम दिखाते हैं कि कच्चे गंध संकेतों से गहरे शिक्षण हाथ से तैयार किए गए विशेषताओं की तुलना में काफी बेहतर है।’

महीन गंध भेदभाव

महीन गंध अंतर को सीखने की क्षमता का मूल्यांकन करने के लिए, एक बेंचमार्क दो घास प्रजातियों से बनाया गया था जो एक ही कैंपस लॉन पर सहजीवन करते हैं। छह 30 मिनट के सत्रों में वैकल्पिक नमूने एकत्र किए गए, जिससे 256 उदाहरण प्राप्त हुए। एक रैखिक वर्गीकरणकर्ता को क्रॉस-मॉडल कंट्रास्टिव लर्निंग से विशेषताओं पर प्रशिक्षित किया गया था, और 42 नमूनों के एक अलग सेट पर मूल्यांकन किया गया था:

рдШрд╛рд╕ рдкреНрд░рдЬрд╛рддрд┐рдпреЛрдВ рдХреА рд╡рд░реНрдЧреАрдХрд░рдг рд╕рдЯреАрдХрддрд╛ рдХреЗрд╡рд▓ рдЧрдВрдз рд╕реЗуАВ рдореЙрдбрд▓ рдХреА рдХреНрд╖рдорддрд╛ рдХрд╛ рдореВрд▓реНрдпрд╛рдВрдХрди рдХрд┐рдпрд╛ рдЧрдпрд╛ рдерд╛ рдЬреЛ рджреЛ рджреГрд╢реНрдп рд░реВрдк рд╕реЗ рд╕рдорд╛рди рдШрд╛рд╕ рдкреНрд░рдХрд╛рд░ рдХреЗ рдмреАрдЪ рдЕрдВрддрд░ рдХрд░рдиреЗ рдореЗрдВ рд╕рдХреНрд╖рдо рдереЗ, рдХреЗрд╡рд▓ рдЧрдВрдз рдЗрдирдкреБрдЯ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдХреЗред рдкреНрд░рджрд░реНрд╢рди рдХреА рддреБрд▓рдирд╛ рдЧрдВрдз рдЫрд╛рдк рдФрд░ рдХрдЪреНрдЪреЗ рд╕реЗрдВрд╕рд░ рдбреЗрдЯрд╛ рдХреЗ рдмреАрдЪ рдХреА рдЧрдИ, рдореЙрдбрд▓ рдХреЛ рдпрд╛ рддреЛ рдпрд╛рджреГрдЪреНрдЫрд┐рдХ рд░реВрдк рд╕реЗ рдЖрд░рдВрднреАрдХреГрдд рдХрд┐рдпрд╛ рдЧрдпрд╛, рд╢реВрдиреНрдп рд╕реЗ рдкреНрд░рд╢рд┐рдХреНрд╖рд┐рдд, рдпрд╛ рд╕реНрд╡-рдкрд░реНрдпрд╡реЗрдХреНрд╖рд┐рдд рд╢рд┐рдХреНрд╖рдг (рдПрд╕рдПрд╕рдПрд▓) рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдХреЗ рдкреНрд░рд╢рд┐рдХреНрд╖рд┐рдд рдХрд┐рдпрд╛ рдЧрдпрд╛, рдЗрд╕рдХреЗ рдмрд╛рдж рдПрдХ рд░реИрдЦрд┐рдХ рдкреНрд░реЛрдм рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд┐рдпрд╛ рдЧрдпрд╛ред рдХрдЪреНрдЪреЗ рдЧрдВрдз рд╕рдВрдХреЗрддреЛрдВ рдХреЗ рд╕рд╛рде рдПрд╕рдПрд╕рдПрд▓ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдХреЗ рд╕рдмрд╕реЗ рдЙрдЪреНрдЪ рд╕рдЯреАрдХрддрд╛, 92.9% рд╣рд╛рд╕рд┐рд▓ рдХреА рдЧрдИ, рдЬреЛ рджрд░реНрд╢рд╛рддреА рд╣реИ рдХрд┐ рдорд╣реАрди рдЧрдВрдз рдЕрдВрддрд░ рдХреЛ рдХрдЪреНрдЪреЗ рдЗрдирдкреБрдЯ рдФрд░ рджреГрд╖реНрдЯрд┐-рдирд┐рд░реНрджреЗрд╢рд┐рдд рдкреНрд░рд╢рд┐рдХреНрд╖рдг рдХреЗ рдорд╛рдзреНрдпрдо рд╕реЗ рд╕рдмрд╕реЗ рдЕрдЪреНрдЫреА рддрд░рд╣ рд╕реЗ рдкрдХрдбрд╝рд╛ рдЬрд╛ рд╕рдХрддрд╛ рд╣реИред

घास प्रजातियों की वर्गीकरण सटीकता केवल गंध से। मॉडल की क्षमता का मूल्यांकन किया गया था जो दो दृश्य रूप से समान घास प्रकार के बीच अंतर करने में सक्षम थे, केवल गंध इनपुट का उपयोग करके। प्रदर्शन की तुलना गंध छाप और कच्चे सेंसर डेटा के बीच की गई, मॉडल को या तो यादृच्छिक रूप से आरंभीकृत किया गया, शून्य से प्रशिक्षित, या स्व-पर्यवेक्षित शिक्षण (एसएसएल) का उपयोग करके प्रशिक्षित किया गया, इसके बाद एक रैखिक प्रोब का उपयोग किया गया। कच्चे गंध संकेतों के साथ एसएसएल का उपयोग करके सबसे उच्च सटीकता, 92.9% हासिल की गई, जो दर्शाती है कि महीन गंध अंतर को कच्चे इनपुट और दृष्टि-निर्देशित प्रशिक्षण के माध्यम से सबसे अच्छी तरह से पकड़ा जा सकता है।

यहां शोधकर्ता कहते हैं:

‘कच्चे गंध संकेत पर प्रशिक्षण (हाथ से तैयार किए गए विशेषताओं के बजाय) सबसे उच्च सटीकता प्राप्त करता है।

‘इन परिणामों से सुझाव मिलता है कि गंध-दृष्टि शिक्षण अधिक महीन गंध अंतर को संरक्षित करता है और गंध छाप के साथ सीखने की तुलना में दृष्टि पर्यवेक्षण के माध्यम से इस जानकारी का शोषण करने में मदद करता है।’

निष्कर्ष

हालांकि गंध संश्लेषण एक ऐसी समस्या लगती है जो भविष्य में कुछ समय तक असुलझी रहेगी, एक प्रभावी और सस्ती जंगल में गंध विश्लेषण प्रणाली का बहुत बड़ा потен्षियल है, न केवल पुलिस, सुरक्षा और चिकित्सा उद्देश्यों के लिए, बल्कि गुणवत्ता जीवन और शहरी निगरानी के लिए भी।

वर्तमान में, शामिल उपकरण निशे और आमतौर पर बहुत महंगा है; इसलिए, ‘गंध कृत्रिम बुद्धिमत्ता’ में वास्तविक प्रगति के लिए एक दूरदर्शी और सस्ती सेंसर की आवश्यकता होगी जो रास्पबेरी पीआई की भावना में है।

 

* मैंने लेखकों के इनलाइन उद्धरणों को हाइपरलिंक में परिवर्तित किया है।

** कृपया ध्यान दें कि आगे की चित्रण (आंकड़ा 8) स्रोत पत्र में उपलब्ध हैं, लेकिन उन्हें उस संदर्भ में देखना सबसे अच्छा है।

पहली बार शुक्रवार, 28 नवंबर, 2025 को प्रकाशित

рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдкрд░ рд▓реЗрдЦрдХ, рдорд╛рдирд╡ рдЗрдореЗрдЬ рд╕рд┐рдВрдереЗрд╕рд┐рд╕ рдореЗрдВ рдбреЛрдореЗрди рд╡рд┐рд╢реЗрд╖рдЬреНрдЮред рдореЗрдЯрд╛рдлрд┐рдЬрд┐рдХ.рдПрдЖрдИ рдореЗрдВ рдЕрдиреБрд╕рдВрдзрд╛рди рд╕рд╛рдордЧреНрд░реА рдХреЗ рдкреВрд░реНрд╡ рдкреНрд░рдореБрдЦред
рд╡реНрдпрдХреНрддрд┐рдЧрдд рд╕рд╛рдЗрдЯ: martinanderson.ai
рд╕рдВрдкрд░реНрдХ: [email protected]
рдЯреНрд╡рд┐рдЯрд░: @manders_ai