Connect with us

إحضار حس الشم إلى تطوير الذكاء الاصطناعي

زاوية Anderson

إحضار حس الشم إلى تطوير الذكاء الاصطناعي

mm
An AI-generated image: a nasally-endowed robot smells a flower in NYC's central park. GPT-image-1 and Qwen Edit 5209.

يعلم مجموعة بيانات جديدة الآلات على شم العطور من خلال ربط بيانات العطر بالصور ، مما يسمح للنماذج بمطابقة الروائح مع الأشياء والمشاهد والمواد.

 

ربما بسبب أن آلات الإخراج العطري لها ماضٍ مشكوكًا ، فإن الشم هو أحد الحواس المهملة إلى حد ما في أدبيات البحث عن الذكاء الاصطناعي. إلا إذا كنت تخطط لإنشاء مدخل آخر في السلسلة الطويلة (أكثر من قرن حتى الآن) ساغا سميل-وفيجن ، فإن الحالات التي يمكن استخدامها دائمًا ما تبدو “محدودة” بالمقارنة مع استغلال مجموعات بيانات الصور والصوت والفيديو ، والنماذج التي يتم تدريبها من خلالها.

في الواقع ، فإن إمكانية توفير مرافق الكشف الآلي والصناعي والشعبي التي تقدمها كلاب القنابل ، كلاب الجثث ، كلاب كاشفة الأمراض ، وأصناف أخرى من وحدات الكشف الكلابية ، سيكون منافع ملحوظة في الخدمات البلدية والأمن. على الرغم من الطلب العالي ، فإن Training و صيانة كلاب الكشف مكلفة بكثرة أكثر من العرض ، وهي عملية باهظة الثمن تكلفتها التي لا توفر دائمًا قيمة جيدة للعملة.

حتى الآن ، معظم الأبحاث التي تتجاوز هذا المجال من الدراسة تم حصرها في المختبر ، مع مجموعات مختارة عادةً تتكون من أمثلة ذات سمات مصنعة يدوياً – ملف مائل أكثر نحو حلول صناعة الحرف اليدوية منها التطبيقات الصناعية.

متقدمًا بأنف

في هذا المناخ الراكد قادمًا تحالفًا أكاديميًا صناعيًا جديدًا من الولايات المتحدة ، حيث قام فريق من الباحثين بإنفاق عدة أشهر في تسجيل روائح متنوعة في البيئات الداخلية والخارجية في مدينة نيويورك – وللمرة الأولى ، جمع صور مرتبطة بالروائح المحبوسة :

لاحظ المستشعر المركزي ، “الأنف” من جهاز الشم. مدرب فقط على الشم ، يتوقع النموذج ما إذا كان يشم رخامًا أو بلاستيكًا أو جلودًا – ويحدد حتى الغرفة التي يوجد فيها ، دون رؤية بكسل واحد. المصدر

أدى هذا البحث إلى قيام مؤلفي العمل الجديد بتصميم تحول على إطار Contrastive Language-Image Pretraining (CLIP) الشهير ، الذي يربط بين النص والصور ، في شكل Contrastive Olfaction-Image Pretraining (COIP) – الذي يربط الروائح والصور.

الأعلى: يتم التقاط بيانات الفيديو والشم الإلكتروني المتزامنة في الإعدادات الطبيعية باستخدام هيكل الكاميرا-الأنف. اليسار السفلي (ب): يتم تعلم التضمين المشترك من خلال الإشراف الذاتي عبر الوسائط. (ج): يستعيد النظام المطابقات البصرية بناءً على رائحة استعلام وحدها. (د): يتم استخدام عينات الشم الفردية لتصنيف فئات البيئة والكائنات والمواد. (ه): يتم التمييز بين الروائح الشبيهة للغاية ، مثل نوعين من الأعشاب ، دون إدخال بصرية.

الأعلى: يتم التقاط بيانات الفيديو والشم الإلكتروني المتزامنة في الإعدادات الطبيعية باستخدام هيكل الكاميرا-الأنف. اليسار السفلي (ب): يتم تعلم التضمين المشترك من خلال الإشراف الذاتي عبر الوسائط. (ج): يستعيد النظام المطابقات البصرية بناءً على رائحة استعلام وحدها. (د): يتم استخدام عينات الشم الفردية لتصنيف فئات البيئة والكائنات والمواد. (ه): يتم التمييز بين الروائح الشبيهة للغاية ، مثل نوعين من الأعشاب ، دون إدخال بصرية. المصدر

يتكون مجموعة البيانات الجديدة ، التي تحمل عنوان روائح نيويورك ، من 7000 زوج من رائحة-صورة يضم 3500 كائن مختلف. عند تدريبها في الاختبارات ، وجد أن البيانات الجديدة تفوقت على الميزات المصنعة يدوياً الشهيرة في عدد صغير من مجموعات البيانات المماثلة السابقة.

يأمل المؤلفون أن يكون خروجهم الأول خطوة نحو أنظمة الكشف الشمية المصممة للعمل في البرية ، على نفس المنوال الذي تعمل به كلاب الكشف :

‘نحن نرى هذه المجموعة من البيانات كخطوة نحو الإدراك الشمي متعدد الوسائط في البرية ، وكذلك خطوة نحو ربط البصر بالشم. في حين تم التعامل مع الشم تقليديًا في إعدادات محددة ، مثل ضمان الجودة ، هناك العديد من التطبيقات في الإعدادات الطبيعية.

‘على سبيل المثال ، كما البشر ، نستخدم دائمًا حاسنا الشم لتقييم جودة الطعام ، وتحديد المخاطر ، والكشف عن الأجسام غير المرئية.

‘علاوة على ذلك ، فإن العديد من الحيوانات ، مثل الكلاب والدببة والفئران ، تظهر قدرات شم خارقة ، مما يشير إلى أن إدراك الشم البشري بعيد عن حد القدرات الآلية.’

على الرغم من أن الورقة الجديدة ، التي تحمل عنوان روائح نيويورك: مجموعة بيانات كبيرة متعددة الوسائط للشم ، توعد بنشر البيانات والكود ، إلا أن ملف بيانات 27 جيجابايت متاح بالفعل عبر موقع المشروع. تم إنتاج الورقة بواسطة تسعة باحثين عبر جامعة كولومبيا وجامعة كورنيل ومختبرات أوسمو.

الطريقة

为了 جمع المواد للمجموعة الجديدة ، استخدم الباحثون الأنف الإلكتروني Cyranose 320 ، مع تثبيت هاتف آيفون فوق مدخل التهوية الأمامي لالتقاط ما يتم شمه بصريًا :

يجمع هيكل المستشعر المحمول البيانات المرتبطة بالفيديو والشم من خلال تثبيت كاميرا آيفون على أنف إلكتروني Cyranose 320. يتم توجيه الأنف نحو الأجسام بينما تدير فتحات العادم والتهوية تدفق الهواء أثناء العينة. يتم التقاط العمق بواسطة كاميرا RGB-D ، بينما يتم تسجيل تركيز المركبات العضوية المتطايرة (VOC) ودرجة الحرارة والرطوبة من خلال المستشعرات المتكاملة ، بما في ذلك وحدة PID وملحقات بيئية.

يجمع هيكل المستشعر المحمول البيانات المرتبطة بالفيديو والشم من خلال تثبيت كاميرا آيفون على أنف إلكتروني Cyranose 320. يتم توجيه الأنف نحو الأجسام بينما تدير فتحات العادم والتهوية تدفق الهواء أثناء العينة. يتم التقاط العمق بواسطة كاميرا RGB-D ، بينما يتم تسجيل تركيز المركبات العضوية المتطايرة (VOC) ودرجة الحرارة والرطوبة من خلال المستشعرات المتكاملة ، بما في ذلك وحدة PID وملحقات بيئية.

يعمل جهاز Cyranose بسرعة 2 هرتز ، مسجلاً 32 بعدًا زمنيًا شميًا. تم تسجيل تركيزات المركبات العضوية المتطايرة (VOC) بواسطة مستشعر MiniPID2 PPM WR.

عمل الوحدة المحمولة كمستشعر خفيف ، يرسل البيانات إلى محطة محمولة أكثر قدرة على الحوسبة للمعالجة.

为了 وضع رائحة الهدف في السياق ، تم تسجيل “رائحة أساسية” ، قبل استهداف الكائن المحدد مباشرةً ب “الأنف” من Cyranose. تم أخذ العينة المحيطة من منفذ جانبي في الوحدة ، لضمان أنها بعيدة بما فيه الكفاية من مصدر الرائحة الرئيسي لتجنب التلوث.

تم أخذ عينتان من خلال مدخل المستشعر الرئيسي ، مع تسجيل كل سجل لمدة 10 ثوانٍ من وضع مختلف حول الكائن ، لتحسين كفاءة البيانات. ثم تم دمج العينتين مع رائحة الأساس لتشكيل مصفوفة 28×32 ، تمثل القياس الشمي الكامل :

يوضح هذا المثال الإشارة والصورة المقابلة لنبات زهرة. يتكون الإشارة الشمية الكاملة من مصفوفة 28x32 ، التي تجمع بين 14 إطارًا من رائحة الأساس مع عينتين من 10 ثوانٍ أخذت من زوايا مختلفة حول الكائن المستهدف.

يوضح هذا المثال الإشارة والصورة المقابلة لنبات زهرة. يتكون الإشارة الشمية الكاملة من مصفوفة 28×32 ، التي تجمع بين 14 إطارًا من رائحة الأساس مع عينتين من 10 ثوانٍ أخذت من زوايا مختلفة حول الكائن المستهدف.

البيانات والاختبارات

تم استخدام نماذج اللغة والرؤية (VLMs) لتحديد الأجسام والمواد التي تم ضبطها بواسطة آيفون في هيكل Cyranose تلقائيًا ، مع استخدام GPT-4o لهذه المهمة ؛ ومع ذلك ، تم تحديد فئات المشاهد يدوياً :

عينة صغيرة من توضيح مطول في الورقة الأصلية يُظهر مصادر الروائح والمواد المختلفة التي تم جمعها في المشروع.

عينة صغيرة من توضيح مطول في الورقة الأصلية يُظهر مصادر الروائح والمواد المختلفة التي تم جمعها في المشروع.

تم تقسيم مجموعة البيانات إلى تقسيمات تدريب وتصديق ، مع تعيين عينات من كل كائن إلى نفس التقسيم لتجنب التلوث العرضي. تتكون المجموعة النهائية من 7000 زوج من رائحة-رؤية تم سحبها من 3500 كائن غير مخطط له ، جنبًا إلى جنب مع 70 ساعة من الفيديو و 196000 خطوة زمنية من البيانات الشمية الخام من مرحلتي الأساس والعينة.

تم جمع البيانات عبر 60 جلسة خلال فترة شهرين ، شملت الحدائق والمباني الجامعية والمكاتب والشوارع والمكتبات والشقق وقاعات الطعام ، مع إجراء عدة جلسات في كل موقع. تحتوي المجموعة النهائية على 41% من البيئات الخارجية و 59% من البيئات الداخلية.

为了 تطوير تمثيلات شمية عامة ، قام المؤلفون بتدريب نموذج معارض لربط أزواج الصور والروائح المتزامنة من مجموعة البيانات. يستخدم هذا النهج ، المعروف باسم COIP ، دالة خسارة خسارة محسنة من CLIP لتحديد التضمين المشترك للرسائل البصرية والشمية.

استخدم التدريب كلاً من المُشفر البصري والمُشفر الشم ، مع الهدف من تعليم النموذج على جلب الروائح والصور المتطابقة معًا في مساحة تمثيل مشتركة. تدعم التمثيلات الناتجة مجموعة من المهام التنازلية ، بما في ذلك استرجاع رائحة-صورة ، وتعرف المشاهد والكائنات ، وتصنيف المواد ، والتمييز الدقيق للرائحة.

تم تدريب النموذج باستخدام نوعين من المدخلات الشمية: الإشارة الشمية الخام والملخص اليدوي المعروف باسم بصمات الرائحة – الميزات الشائعة في أبحاث الشم التي تُكمل استجابة كل مستشعر في رقم واحد من خلال مقارنة مقاومة القمة أثناء العينة بالمقاومة المتوسطة أثناء رائحة الأساس.

من خلال المقارنة ، تتكون الإدخال الخام المسجل في جميع أنحاء مدينة نيويورك من سلسلة زمنية من 32 مستشعرًا كيميائيًا داخل جهاز Cyranose ، مما يلخص كيفية تغير مقاومة كهربائية كل مستشعر مع مرور الوقت أثناء تفاعله مع الرائحة.

对于 تحضير مجموعة البيانات ، تم إطعام الإشارة غير المعالجة مباشرة إلى شبكة عصبية ، مما يسمح بالتعلم من النهاية إلى النهاية مع مُشفر متوازي أو مُشفر تحويلي كمنصة أساسية. تم تدريب النماذج باستخدام كل من بصمات الرائحة والإدخال الخام المجموع من مختلف البيئات في مدينة نيويورك ، مع تقييم كلا النوعين من الإدخال باستخدام التعلم المعارض.

استرجاع متعدد الوسائط

تم تقييم استرجاع متعدد الوسائط عن طريق تحويل كل عينة رائحة وصورتها المقترنة إلى مساحة تمثيل مشتركة ، واختبار ما إذا كان يمكن استرجاع الصورة الصحيحة بناءً على الإدخال الشم فقط.

تم تحديد التصنيف حسب قرب كل تضمين صورة من استعلام الرائحة داخل هذه المساحة ، وتم قياس الأداء باستخدام الترتيب المتوسط ، الترتيب الأوسط ، و الاستدعاء عند عدة عتبات :

دقة استرجاع متعدد الوسائط لمدخلات شم مختلفة ، مما يظهر كيفية تحديد كل نموذج للصورة الصحيحة من استعلام رائحة. يتم مقارنة النتائج بين الهياكل المعمارية المُدرَّبة على الإشارات الشمية الخام وتلك التي تستخدم بصمات الرائحة.

دقة استرجاع متعدد الوسائط لمدخلات شم مختلفة ، مما يظهر كيفية تحديد كل نموذج للصورة الصحيحة من استعلام رائحة. يتم مقارنة النتائج بين الهياكل المعمارية المُدرَّبة على الإشارات الشمية الخام وتلك التي تستخدم بصمات الرائحة.

فيما يتعلق بهذه النتائج ، يقول المؤلفون :

‘التدريب المسبق المعارض باستخدام بصمات الرائحة يؤدي بشكل أفضل من الصدفة في جميع المقاييس. ومع ذلك ، فإن تدريب مُشفر الرائحة على الإشارة الشمية الخام يؤدي إلى تحسين كبير مقارنة بمُشفر بصمات الرائحة ، بغض النظر عن الهيكل.

‘هذا يظهر المعلومات الغنية الموجودة في البيانات الشمية الخام ، مما يفتح الرابطات متعددة الوسائط القوية بين البصر والشم.’

تعرف المشاهد والكائنات والمواد

تم تقييم khảية نموذج التعرف على الروائح بدون إدخال بصرية عن طريق تدريبه على تحديد المشاهد والكائنات والمواد بناءً على بيانات شمية فقط ؛ لهذا الغرض ، تم استخدام مُستقبل خطي (مُصنف بسيط تم تدريبه على تمثيلات مجمدة) لتقييم كمية المعلومات المُحكمة في التمثيلات الشمية المُتعلمة.

تم اشتقاق التسميات من الصور المزاوجة في مجموعة التدريب باستخدام GPT-4o – ولكن فقط الإشارة الشمية تم استخدامها خلال التصنيف.

تم اختبار عدة أنواع من المُشفرات : بعضها تم 초기ته بشكل عشوائي ، وبعضها تم تدريبه من الصفر ، وبعضها الآخر تم تدريبه باستخدام التعلم المعارض لتحديد الرؤية والشم في مساحة تمثيل مشتركة ، مع تقييم الإدخال الخام وبصمات الرائحة :

تم تقييم دقة التصنيف للمشاهد والمواد والكائنات باستخدام الإشارات الشمية فقط. أدت الإدخال الخام أفضل من بصمات الرائحة ، مع أن النماذج المُدرَّبة من الصفر باستخدام شبكات عصبية متوازيّة أظهرت أعلى نتائج ، بما في ذلك 99.5% للمشاهد. ساعد التدريب المسبق بالتعلم الذاتي في بعض الحالات ، ولكن تم تجاوزه بشكل عام بواسطة التدريب الإشرافي. تشير قيم الأساس العشوائية إلى أن سعة النموذج وحدها تثبت أنها غير كافية.

تم تقييم دقة التصنيف للمشاهد والمواد والكائنات باستخدام الإشارات الشمية فقط. أدت الإدخال الخام أفضل من بصمات الرائحة ، مع أن النماذج المُدرَّبة من الصفر باستخدام شبكات عصبية متوازيّة أظهرت أعلى نتائج ، بما في ذلك 99.5% للمشاهد. ساعد التدريب المسبق بالتعلم الذاتي في بعض الحالات ، ولكن تم تجاوزه بشكل عام بواسطة التدريب الإشرافي. تشير قيم الأساس العشوائية إلى أن سعة النموذج وحدها تثبت أنها غير كافية.

كانت الدقة أعلى بكثير عندما تم استخدام البيانات الشمية الخام ، خاصة في النماذج المُدرَّبة بالاشراف المتعدد الوسائط. يقول المؤلفون :

‘النماذج المُدرَّبة على الإدخالات الحسية الخام تحقق دقة أعلى من النماذج المُدرَّبة على ميزات بصمات الرائحة المصنعة يدوياً. هذه النتائج تظهر أن التعلم العميق من الإشارات الشمية الخام أفضل بكثير من الميزات المصنعة يدوياً.’

التمييز الدقيق

为了 تقييم ما إذا كانت يمكن تعلم التمييز الدقيق للرائحة ، تم بناء معيار من نوعين من الأعشاب موجودين على نفس العشب في الحرم الجامعي. تم جمع العينات بترakiب بديلة على مدار ستة جلسات مدتها 30 دقيقة ، مما أدى إلى 256 مثالًا. تم تدريب مُصنف خطي على الميزات من التعلم المعارض الشم-البصري ، وتم تقييمه على مجموعة معزولة من 42 عينة :

دقة تصنيف نوعي الأعشاب من الرائحة فقط. تم تقييم النماذج على khảية التمييز بين نوعين من الأعشاب الشبيهة بصريًا باستخدام الإدخال الشم فقط. تم مقارنة الأداء عبر بصمات الرائحة والإدخال الخام ، مع نماذج إما تم 초기ته بشكل عشوائي أو تدريبه من الصفر أو تدريبه باستخدام التعلم الذاتي المسبق (SSL) متبوعًا بمُستقبل خطي. تم تحقيق الدقة الأعلى ، 92.9% ، باستخدام الإشارات الشمية الخام مع SSL ، مما يشير إلى أن الفروق الدقيقة في الرائحة يتم التمييز بينها بشكل أفضل من خلال الإدخال الخام والتدريب الموجه بالرؤية.

دقة تصنيف نوعي الأعشاب من الرائحة فقط. تم تقييم النماذج على khảية التمييز بين نوعين من الأعشاب الشبيهة بصريًا باستخدام الإدخال الشم فقط. تم مقارنة الأداء عبر بصمات الرائحة والإدخال الخام ، مع نماذج إما تم 초기ته بشكل عشوائي أو تدريبه من الصفر أو تدريبه باستخدام التعلم الذاتي المسبق (SSL) متبوعًا بمُستقبل خطي. تم تحقيق الدقة الأعلى ، 92.9% ، باستخدام الإشارات الشمية الخام مع SSL ، مما يشير إلى أن الفروق الدقيقة في الرائحة يتم التمييز بينها بشكل أفضل من خلال الإدخال الخام والتدريب الموجه بالرؤية.

هنا يقول الباحثون :

‘التدريب على الإشارة الشمية الخام (بدلاً من الميزات المصنعة) يؤدي إلى دقة أعلى – يتجاوز جميع المتغيرات التي تستند إلى بصمات الرائحة.

‘هذه النتائج تشير إلى أن التعلم الشم-البصري يحافظ على معلومات أكثر دقة من التعلم باستخدام بصمات الرائحة ، وأن الإشراف البصري يوفر إشارة لاستغلال هذه المعلومات.’

الختام

على الرغم من أن 합成 الرائحة يبدو أنه سوف يبقى مشكلة غير محلولة لبعض الوقت في المستقبل ، فإن نظام تحليل الرائحة فعال ومتاح بأسعار معقولة في البرية له إمكانات هائلة ، ليس فقط لأغراض الشرطة والأمن والطبية ، ولكن أيضًا لمراقبة جودة الحياة والحضرية.

في الوقت الحالي ، المعدات المشاركة هي فريدة من نوعها وغالبًا ما تكون باهظة الثمن ؛ لذلك من المرجح أن يتطلب التقدم الحقيقي في “الذكاء الاصطناعي الشم” للكشف جهاز مستشعر رؤية في روح Raspberry PI.

 

* تحويلي لمراجع المؤلفين إلى روابط.

** يرجى ملاحظة أن هناك توضيحات إضافية (الشكل 8) متاحة في الورقة الأصلية ، ولكنها أفضل عرض في ذلك السياق.

نشر لأول مرة يوم الجمعة ، 28 نوفمبر 2025

كاتب في تعلم الآلة، متخصص في مجال 합성 الصور البشرية. السابق رئيس محتوى البحث في Metaphysic.ai.
الsite الشخصي: martinanderson.ai
التواصل: [email protected]
تويتر: @manders_ai