الذكاء الاصطناعي

تحولات التحويلات الرؤية تتغلب على التحديات بأساليب جديدة لانتباه “القطعة إلى المجموعة”

Published June 5, 2023

Updated April 28, 2026

Alex McFarland

تكنولوجيا الذكاء الاصطناعي (AI) ، ولا سيما تحويلات الرؤية (ViTs) ، أظهرت وعدا كبيرا في khảية التعرف على الأشياء وتصنيفها في الصور. ومع ذلك ، فإن التطبيق العملي لها كان محدودا ب两个 تحديات كبيرتين: متطلبات القدرة الحاسوبية العالية وعدم وضوح اتخاذ القرارات. الآن ، قام فريق من الباحثين بتطوير حل ثوري: منهجية جديدة تعرف باسم “انتباه القطعة إلى المجموعة” (PaCa). تهدف PaCa إلى تعزيز قدرات ViTs في تحديد الأشياء وتصنيفها وتنقيحها في الصور ، مع حل المشاكل الطويلة الأمد المتعلقة بالطلبات الحاسوبية وضوح اتخاذ القرارات.

معالجة تحديات ViTs: نظرة على الحل الجديد

التحويلات ، بفضل قدراتها العالية ، هي من بين أكثر النماذج تأثيرا في عالم الذكاء الاصطناعي. تم تمديد قوة هذه النماذج إلى البيانات البصرية من خلال ViTs ، وهي فئة من التحويلات التي يتم تدريبها على المدخلات البصرية. على الرغم من الإمكانات الهائلة التي تقدمها ViTs في تفسير وفهم الصور ، إلا أنها تم حظرها بسبب مشكلتين كبيرتين.
أولا ، بسبب طبيعة الصور التي تحتوي على كميات هائلة من البيانات ، تتطلب ViTs قدرة حاسوبية ومساحة تخزين كبيرة. يمكن أن يكون هذا التعقيد مخيفا للنظم ، خاصة عند التعامل مع الصور عالية الدقة. ثانيا ، عملية اتخاذ القرارات داخل ViTs غالبا ما تكون معقدة وغامضة. يجد المستخدمون صعوبة في فهم كيفية تمييز ViTs بين الأشياء أو الميزات المختلفة في الصورة ، وهو أمر حاسم للعديد من التطبيقات.
然而 ، تقدم منهجية PaCa المبتكرة حلا لهذين التحديين. “نعالج التحدي المتعلق بالطلبات الحاسوبية والتخزين باستخدام تقنيات التجميع ، مما يسمح لعمارة التحويل بالتركيز بشكل أفضل على الأشياء في الصورة” ، يشرح تيانفو وو ، المؤلف الرئيسي للورقة البحثية وأستاذ مساعد في الهندسة الكهربائية والحاسوب في جامعة ولاية كارولينا الشمالية.
استخدام تقنيات التجميع في PaCa يقلل بشكل كبير من المتطلبات الحاسوبية ، مما يحول المشكلة من عملية квадратية إلى عملية خطية قابلة للإدارة. يوضح وو العملية ، “من خلال التجميع ، نحول هذه العملية إلى عملية خطية ، حيث لا يحتاج كل وحدة صغيرة إلى المقارنة إلا مع عدد محدد مسبقا من المجموعات”.
التجميع يخدم أيضا لتوضيح عملية اتخاذ القرارات في ViTs. عملية تشكيل المجموعات تكشف كيفية اتخاذ ViT للقرارات حول أهمية الميزات في تجميع أقسام من بيانات الصورة معا. حيث إن الذكاء الاصطناعي يخلق عددا محدودا من المجموعات ، يمكن للمستخدمين فهم واختبار عملية اتخاذ القرارات بسهولة ، مما يحسن بشكل كبير من تفسيرية النموذج.

تتقدم منهجية PaCa على التحويلات الأخرى من فئة ViTs

من خلال الاختبارات الشاملة ، وجد الباحثون أن منهجية PaCa تتفوق على ViTs الأخرى في عدة جوانب. يوضح وو ، “وجدنا أن PaCa تفوقت على SWin و PVT في كل شيء”. كشفت عملية الاختبار عن أن PaCa تفوقت في تصنيف الأشياء وتحديدها في الصور وتنقيحها ، حيث حددت بفعالية حدود الأشياء في الصور. بالإضافة إلى ذلك ، وجد أنها أكثر كفاءة في الوقت ، حيث أدت المهمات بسرعة أكبر من ViTs الأخرى.
مشجعين بنجاح PaCa ، يهدف فريق البحث إلى تطويره بشكل أكبر من خلال تدريبه على مجموعات بيانات أساسية أكبر. من خلال القيام بذلك ، يأملون في دفع الحدود الحالية لما هو ممكن مع الذكاء الاصطناعي القائم على الصور.
ستتم تقديم ورقة البحث ، “PaCa-ViT: تعلم انتباه القطعة إلى المجموعة في تحويلات الرؤية” ، في مؤتمر IEEE/CVF القادم على الرؤية الحاسوبية والتعرف على الأنماط. إنها علامة فارقة يمكن أن تفتح الطريق لأنظمة ذكاء اصطناعي أكثر كفاءة وشفافية وسهولة الوصول.

Alex McFarland

Alex McFarland هو صحفي وكاتب في مجال الذكاء الاصطناعي يستكشف أحدث التطورات في الذكاء الاصطناعي. وقد تعاون مع العديد من الشركات الناشئة في مجال الذكاء الاصطناعي والمنشورات في جميع أنحاء العالم.