الذكاء الاصطناعي
ثورة في الذكاء الاصطناعي مع ReALM من Apple: مستقبل المساعدين الأذكياء

By
عيوش ميتال ميتال
في مشهد الذكاء الاصطناعي الذي يتطور باستمرار، كانت شركة Apple رائدة بهدوء في اتباع نهج رائد يمكن أن يعيد تعريف كيفية تفاعلنا مع أجهزة iPhone الخاصة بنا. ReALM، أو الدقة المرجعية كنمذجة اللغة، هو نموذج للذكاء الاصطناعي يعد بتقديم مستوى جديد من الوعي السياقي والمساعدة السلسة.
بينما يعج عالم التكنولوجيا بالإثارة بشأن GPT-4 من OpenAI ونماذج اللغات الكبيرة الأخرى (LLMs)، يمثل ReALM من Apple تحولًا في التفكير - الابتعاد عن الاعتماد فقط على الذكاء الاصطناعي القائم على السحابة إلى نهج أكثر تخصيصًا على الجهاز. الهدف؟ لإنشاء مساعد ذكي يفهمك حقًا، ويفهم عالمك، والنسيج المعقد لتفاعلاتك الرقمية اليومية.
في قلب ReALM تكمن القدرة على حل المراجع - تلك الضمائر الغامضة مثل "it" "هم"أو"أن"التي يتنقل بها البشر بسهولة بفضل الإشارات السياقية. ومع ذلك، بالنسبة لمساعدي الذكاء الاصطناعي، كان هذا بمثابة حجر عثرة منذ فترة طويلة، مما أدى إلى سوء فهم محبط وتجربة مستخدم مفككة.
تخيل سيناريو حيث تطلب من Siri "أن تجد لي وصفة صحية بناءً على ما هو موجود في ثلاجتي، ولكن مع الاحتفاظ بالفطر - فأنا أكرهه". باستخدام ReALM، لن يفهم جهاز iPhone الخاص بك الإشارات إلى المعلومات التي تظهر على الشاشة (محتويات ثلاجتك) فحسب، بل سيتذكر أيضًا تفضيلاتك الشخصية (كره الفطر) والسياق الأوسع للعثور على وصفة مصممة خصيصًا لتلك المعلمات.
يعد هذا المستوى من الوعي السياقي قفزة نوعية من نهج مطابقة الكلمات الرئيسية لمعظم مساعدي الذكاء الاصطناعي الحاليين. من خلال تدريب LLMs على حل المراجع بسلاسة عبر ثلاثة مجالات رئيسية - المحادثة، والتي تظهر على الشاشة، والخلفية - تهدف ReALM إلى إنشاء رفيق رقمي ذكي حقًا لا يشبه المساعد الصوتي الآلي بقدر ما يشبه امتدادًا لعمليات التفكير الخاصة بك.
مجال المحادثة: تذكر ما حدث من قبل
يعالج الذكاء الاصطناعي للمحادثة، ReALM تحديًا طويل الأمد: الحفاظ على التماسك والذاكرة عبر دورات الحوار المتعددة. بفضل قدرته على حل المراجع ضمن محادثة مستمرة، يمكن لـ ReALM أخيرًا الوفاء بوعد التفاعل الطبيعي ذهابًا وإيابًا مع مساعدك الرقمي.
تخيل أنك تطلب من Siri "تذكيري بحجز التذاكر لإجازتي عندما أحصل على راتبي يوم الجمعة". مع ReALM، لن يفهم Siri فقط سياق خطط عطلتك (التي من المحتمل أن يتم استخلاصها من محادثة سابقة أو من المعلومات التي تظهر على الشاشة) ولكن سيكون لديه أيضًا الوعي لربط "تحصيل الأموال" بروتين يوم الدفع المعتاد الخاص بك.
يبدو هذا المستوى من الذكاء التحادثي وكأنه قفزة حقيقية إلى الأمام، مما يتيح إجراء حوارات سلسة متعددة المنعطفات دون الإحباط الناتج عن إعادة شرح السياق باستمرار أو تكرار نفسك.
المجال الذي يظهر على الشاشة: إعطاء عيونك المساعدة
ربما يكمن الجانب الأكثر ابتكارًا في ReALM في قدرته على حل الإشارات إلى الكيانات التي تظهر على الشاشة - وهي خطوة حاسمة نحو إنشاء تجربة مستخدم حقيقية بدون استخدام اليدين ومدفوعة بالصوت.
تناقش الورقة البحثية لشركة Apple تقنية جديدة لتشفير المعلومات المرئية من شاشة جهازك إلى تنسيق يمكن لـ LLM معالجته. من خلال إعادة بناء تخطيط شاشتك بشكل أساسي في تمثيل قائم على النص، يمكن لـ ReALM "رؤية" وفهم العلاقات المكانية بين العناصر المختلفة التي تظهر على الشاشة.
فكر في سيناريو تنظر فيه إلى قائمة المطاعم واطلب من Siri "الاتجاهات إلى المطعم الموجود في الشارع الرئيسي". باستخدام ReALM، لن يفهم جهاز iPhone الخاص بك الإشارة إلى موقع معين فحسب، بل سيربطه أيضًا بالكيان ذي الصلة على الشاشة - قائمة المطعم التي تطابق هذا الوصف.
يفتح هذا المستوى من الفهم البصري عالمًا من الإمكانيات، بدءًا من العمل بسلاسة على المراجع داخل التطبيقات ومواقع الويب وحتى التكامل مع واجهات الواقع المعزز المستقبلية وحتى إدراك الكائنات والبيئات الواقعية والاستجابة لها من خلال كاميرا جهازك.
تتناول الورقة البحثية حول نموذج ReALM من Apple التفاصيل المعقدة لكيفية تشفير النظام للكيانات التي تظهر على الشاشة وحل المراجع عبر سياقات مختلفة. فيما يلي شرح مبسط للخوارزميات والأمثلة المقدمة في الورقة:
- تشفير الكيانات التي تظهر على الشاشة: تستكشف الورقة العديد من الاستراتيجيات لتشفير العناصر التي تظهر على الشاشة في تنسيق نصي يمكن معالجته بواسطة نموذج لغة كبير (LLM). يتضمن أحد الأساليب تجميع الكائنات المحيطة بناءً على قربها المكاني وإنشاء مطالبات تتضمن هذه الكائنات المجمعة. ومع ذلك، يمكن أن تؤدي هذه الطريقة إلى مطالبات طويلة جدًا مع زيادة عدد الكيانات.
النهج الأخير الذي اعتمده الباحثون هو تحليل الشاشة بترتيب من أعلى إلى أسفل ومن اليسار إلى اليمين، مما يمثل التخطيط بتنسيق نصي. يتم تحقيق ذلك من خلال الخوارزمية 2، التي تقوم بفرز الكائنات التي تظهر على الشاشة بناءً على إحداثيات مركزها، وتحدد المستويات الرأسية عن طريق تجميع الكائنات ضمن هامش معين، وإنشاء التحليل على الشاشة من خلال تسلسل هذه المستويات بعلامات تبويب تفصل الكائنات على نفس السطر .
من خلال إدخال الكيانات ذات الصلة (أرقام الهواتف في هذه الحالة) في التمثيل النصي، يمكن لـ LLM فهم السياق الذي يظهر على الشاشة وحل المراجع وفقًا لذلك.
- أمثلة على تحليل المراجع: تقدم الورقة عدة أمثلة لتوضيح قدرات نموذج ReALM في حل المراجع عبر سياقات مختلفة:
أ. مراجع المحادثة: بالنسبة لطلب مثل "Siri، اعثر لي على وصفة صحية بناءً على ما يوجد في ثلاجتي، لكن احتفظ بالفطر - أنا أكره ذلك"، يمكن لـ ReALM فهم السياق الذي يظهر على الشاشة (محتويات الثلاجة)، وسياق المحادثة (العثور على وصفة)، وتفضيلات المستخدم (كره الفطر).
ب. مراجع الخلفية: في المثال "Siri، قم بتشغيل تلك الأغنية التي تم تشغيلها في السوبر ماركت سابقًا"، يمكن لـ ReALM التقاط مقتطفات الصوت المحيط وتحديدها لحل الإشارة إلى الأغنية المحددة.
ج. المراجع التي تظهر على الشاشة: بالنسبة لطلب مثل "Siri، ذكّرني بحجز التذاكر للإجازة عندما أحصل على راتبي يوم الجمعة"، يمكن لـ ReALM دمج المعلومات من إجراءات المستخدم (يوم الدفع)، أو المحادثات التي تظهر على الشاشة أو مواقع الويب (خطط الإجازة) )، والتقويم لفهم الطلب والتصرف بناءً عليه.
توضح هذه الأمثلة قدرة ReALM على حل المراجع عبر سياقات المحادثة والتي تظهر على الشاشة والخلفية، مما يتيح تفاعلًا أكثر طبيعية وسلاسة مع المساعدين الأذكياء.
مجال الخلفية
بالانتقال إلى ما هو أبعد من مجرد سياقات المحادثة والتي تظهر على الشاشة، تستكشف ReALM أيضًا القدرة على حل الإشارات إلى كيانات الخلفية - تلك الأحداث والعمليات الطرفية التي غالبًا ما تمر دون أن يلاحظها أحد من قبل مساعدينا الحاليين في مجال الذكاء الاصطناعي.
تخيل سيناريو تطلب فيه من Siri "تشغيل تلك الأغنية التي كانت تعمل في السوبر ماركت سابقًا". باستخدام ReALM، يمكن لجهاز iPhone الخاص بك التقاط مقتطفات الصوت المحيط والتعرف عليها، مما يسمح لـ Siri بسحب المسار الذي تفكر فيه وتشغيله بسلاسة.
يبدو هذا المستوى من الوعي بالخلفية بمثابة الخطوة الأولى نحو مساعدة الذكاء الاصطناعي واسعة الانتشار والمدركة للسياق - وهو رفيق رقمي لا يفهم كلماتك فحسب، بل يفهم أيضًا النسيج الغني لتجاربك اليومية.
وعد الذكاء الاصطناعي على الجهاز: الخصوصية والتخصيص
في حين أن قدرات ReALM مثيرة للإعجاب بلا شك، فربما تكمن أهم ميزة لها في التزام Apple طويل الأمد بالذكاء الاصطناعي على الجهاز وخصوصية المستخدم.
على عكس نماذج الذكاء الاصطناعي المستندة إلى السحابة والتي تعتمد على إرسال بيانات المستخدم إلى خوادم بعيدة للمعالجة، تم تصميم ReALM للعمل بالكامل على جهاز iPhone أو أجهزة Apple الأخرى. وهذا لا يعالج المخاوف المتعلقة بخصوصية البيانات فحسب، بل يفتح أيضًا إمكانيات جديدة لمساعدة الذكاء الاصطناعي التي تفهمك حقًا وتتكيف معك كفرد.
من خلال التعلم مباشرة من بياناتك الموجودة على جهازك - محادثاتك وأنماط استخدام التطبيقات وحتى المدخلات الحسية المحيطة - يمكن لـ ReALM إنشاء مساعد رقمي شديد التخصيص مصمم خصيصًا لتلبية احتياجاتك الفريدة وتفضيلاتك وروتينك اليومي.
يبدو هذا المستوى من التخصيص بمثابة نقلة نوعية من النهج الموحد الذي يناسب الجميع لمساعدي الذكاء الاصطناعي الحاليين، الذين غالبًا ما يكافحون من أجل التكيف مع خصوصيات المستخدمين الفرديين وسياقاتهم.
موديل RealM-250M يحقق نتائج مبهرة:
-
- فهم المحادثة: 97.8
- فهم المهام الاصطناعية: 99.8
- أداء المهمة على الشاشة: 90.6
- معالجة المجال غير المرئي: 97.2
الاعتبارات الأخلاقية
وبطبيعة الحال، مع هذه الدرجة العالية من التخصيص والوعي السياقي، تأتي مجموعة من الاعتبارات الأخلاقية حول الخصوصية والشفافية وإمكانية تأثير أنظمة الذكاء الاصطناعي على سلوك المستخدم أو حتى التلاعب به.
مع اكتساب ReALM فهمًا أعمق لحياتنا اليومية - بدءًا من عاداتنا الغذائية وأنماط استهلاك الوسائط وحتى تفاعلاتنا الاجتماعية وتفضيلاتنا الشخصية - هناك خطر من استخدام هذه التكنولوجيا بطرق تنتهك ثقة المستخدم أو تتجاوز الحدود الأخلاقية.
يدرك باحثو شركة Apple هذا التوتر تمامًا، ويعترفون في ورقتهم البحثية بالحاجة إلى تحقيق توازن دقيق بين تقديم تجربة ذكاء اصطناعي مفيدة وشخصية حقًا واحترام خصوصية المستخدم وقدرته على التصرف.
لا يقتصر هذا التحدي على شركة Apple أو ReALM بالطبع - فهو محادثة يجب على صناعة التكنولوجيا بأكملها أن تتصدى لها مع تزايد تطور أنظمة الذكاء الاصطناعي ودمجها في حياتنا اليومية.
نحو تجربة ذكاء اصطناعي أكثر ذكاءً وطبيعية
مع استمرار Apple في دفع حدود الذكاء الاصطناعي على الجهاز من خلال نماذج مثل ReALM، فإن الوعد المثير بمساعد رقمي ذكي حقًا ومدرك للسياق يبدو أقرب من أي وقت مضى.
تخيل عالمًا حيث يبدو Siri (أو أيًا كان اسم مساعد الذكاء الاصطناعي هذا في المستقبل) أقل شبهاً بصوت غير متجسد من السحابة وأكثر شبهاً بامتداد عمليات التفكير الخاصة بك - شريك لا يفهم كلماتك فحسب، بل يفهم أيضًا الأثرياء نسيج حياتك الرقمية، وروتينك اليومي، وتفضيلاتك وسياقاتك الفريدة.
من العمل بسلاسة على المراجع داخل التطبيقات ومواقع الويب إلى توقع احتياجاتك بناءً على موقعك ونشاطك والمدخلات الحسية المحيطة، يمثل ReALM خطوة مهمة نحو تجربة ذكاء اصطناعي أكثر طبيعية وسلاسة تطمس الخطوط بين عالمنا الرقمي والمادي.
وبطبيعة الحال، سيتطلب تحقيق هذه الرؤية أكثر من مجرد الابتكار التقني - بل سيتطلب أيضا اتباع نهج أخلاقي مدروس في تطوير الذكاء الاصطناعي الذي يعطي الأولوية لخصوصية المستخدم، والشفافية، والوكالة.
مع استمرار شركة Apple في تحسين قدرات ReALM وتوسيع نطاقها، لا شك أن عالم التكنولوجيا سوف يراقب بفارغ الصبر، متشوقًا لرؤية كيف يشكل نموذج الذكاء الاصطناعي الرائد هذا مستقبل المساعدين الأذكياء ويبشر بعصر جديد من الحوسبة المخصصة حقًا والمدركة للسياق. .
ويبقى أن نرى ما إذا كانت شركة ReALM تفي بوعدها بالتفوق في الأداء حتى على GPT-4 القوي. ولكن هناك شيء واحد مؤكد: إن عصر مساعدي الذكاء الاصطناعي الذين يفهموننا حقا - كلماتنا، وعوالمنا، والنسيج الغني لحياتنا اليومية - يجري على قدم وساق، وربما يكون أحدث ابتكارات أبل في طليعة هذه الثورة.
لقد أمضيت السنوات الخمس الماضية منغمسًا في عالم رائع من التعلم الآلي والتعلم العميق. قادني شغفي وخبرتي إلى المساهمة في أكثر من 50 مشروعًا متنوعًا لهندسة البرمجيات ، مع التركيز بشكل خاص على الذكاء الاصطناعي / التعلم الآلي. جذبني فضولي المستمر أيضًا نحو معالجة اللغة الطبيعية ، وهو مجال أتوق لاستكشافه بشكل أكبر.
قد يعجبك
-
نماذج اللغة تغير إجاباتها اعتمادًا على كيفية تحدثك
-
نماذج اللغة المخصصة سهلة الصنع - وأصعب اكتشافها
-
مستقبل الإعلان بعد ثورة الذكاء الاصطناعي في حركة المرور
-
كيفية جعل ChatGPT يتحدث بشكل طبيعي
-
الذكاء الاصطناعي يتصرف بشكل مختلف عندما يعلم أنه قيد الاختبار، وفقًا لبحث جديد
-
ما مدى كفاءة وكلاء الذكاء الاصطناعي في البحث الحقيقي؟ تقرير من داخل منصة البحث العميق