ESI-Bench مقياس جديد للذكاء المكاني في الذكاء الاصطناعي

بقلم: نور | محررة الأبحاث والدراسات · صوت تحريري بإشراف بشري

طور فريق بحثي من جامعة ستانفورد وجامعة واشنطن مقياساً جديداً يُسمى ESI-Bench لاختبار قدرة أنظمة الذكاء الاصطناعي على فهم المساحات والتفاعل معها بذكاء، متجاوزين النماذج التقليدية التي تعتمد على المراقبة السلبية فقط. (وفقاً للدراسة المنشورة على arXiv)

يركز هذا المقياس على مفهوم أساسي في الذكاء المكاني: أن الوكلاء الأذكياء لا يكتفون بمعالجة ما يرونه، بل يتحركون بنشاط لكشف ما هو مخفي – الهياكل المحجوبة والديناميكيات والوظائف التي لا يمكن حلها من الاستشعار السلبي وحده. هذا التحول من “المراقب” إلى “الممثل” يعيد تعريف كيفية تقييم الذكاء المكاني في أنظمة الذكاء الاصطناعي.

يشمل ESI-Bench 10 فئات مهام و29 فئة فرعية مبنية على منصة OmniGibson، مؤسسة على أنظمة المعرفة الأساسية لـ Spelke. يجب على الوكلاء اتخاذ قرارات حول القدرات التي سيوظفونها – الإدراك والحركة والتلاعب – وكيفية ترتيبها لجمع أدلة مناسبة للمهمة بشكل فعال.

تحديد نوع المهمة والتخطيط الأولي: يحلل النظام المهمة المطلوبة ويحدد استراتيجية الاستكشاف المناسبة، مثل البحث عن كائن مخفي أو فهم ديناميكيات البيئة.
اختيار القدرات المناسبة: يقرر النظام بين الإدراك البصري والحركة الفيزيائية والتلاعب بالكائنات حسب متطلبات كل موقف محدد.
تنفيذ الاستكشاف النشط: يتحرك الوكيل في البيئة بطريقة هادفة لجمع المعلومات، بدلاً من الاعتماد على وجهات نظر عشوائية أو ثابتة.
تحليل المعلومات المتراكمة: يقيم النظام الأدلة المجمعة ويحدد ما إذا كانت كافية لإكمال المهمة أم يحتاج لمزيد من الاستكشاف.
اتخاذ القرارات المبنية على الأدلة: يستخدم المعلومات المجمعة لاتخاذ قرارات نهائية حول طبيعة البيئة أو حل المشكلة المطروحة.
التعديل والتكيف: يعدل النظام استراتيجيته بناءً على النتائج الأولية والمعلومات الجديدة التي يكتشفها أثناء الاستكشاف.

كشفت التجارب على نماذج اللغة الكبيرة متعددة الوسائط المتقدمة أن الاستكشاف النشط يتفوق بشكل كبير على النظراء السلبيين، حيث تكتشف الوكلاء استراتيجيات مكانية ناشئة تلقائياً دون تعليمات صريحة. في المقابل، أثبتت العرض متعدد الزوايا العشوائي أنه يضيف ضوضاء بدلاً من إشارة مفيدة رغم استهلاك صور أكثر بكثير.

تُشير النتائج إلى أن معظم الإخفاقات لا تنبع من ضعف الإدراك، بل من “عمى العمل”: اختيارات الحركة السيئة تؤدي إلى ملاحظات رديئة، مما يسبب أخطاء متتالية. بينما يساعد التأسيس ثلاثي الأبعاد الصريح على استقرار التفكير في المهام الحساسة للعمق، تبين أن التمثيل ثلاثي الأبعاد غير المثالي أكثر ضرراً من خطوط الأساس ثنائية الأبعاد لأنه يشوه العلاقات المكانية.

كشفت الدراسات البشرية عن فجوة ما وراء معرفية مقلقة: بخلاف البشر الذين يبحثون عن وجهات نظر تدحض فرضياتهم ويراجعون معتقداتهم عند التناقض، تلتزم النماذج مبكراً بثقة عالية بغض النظر عن جودة الأدلة. هذه الفجوة لا يمكن سدها بتحسين الإدراك أو زيادة التفاعل الجسدي وحدهما.

يمثل هذا البحث تحولاً مهماً في كيفية تقييم الذكاء المكاني، متحركاً من النماذج السلبية إلى أنظمة تفاعلية تحاكي الطريقة التي نفهم بها البشر والحيوانات العالم من حولنا – من خلال الحركة والاستكشاف النشط.

arXiv