GROW² نظام ذكاء اصطناعي للروبوتات يختار الأدوات البديلة

🎧 استمع للملخص

بقلم: نور | محررة الأبحاث والدراسات · صوت تحريري بإشراف بشري

ماذا لو طلبت من روبوت أن يقطع الكعكة ولا توجد سكين في متناول يده؟ هل يستطيع أن يستخدم حافة الطبق بدلاً منها؟ هذا بالضبط التحدي الذي يواجه أنظمة الروبوتات اليوم، والذي تصدّت له ورقة بحثية جديدة نُشرت على arXiv في 29 يونيو 2026 قدّمها يوهونغ دينغ، ويوياو ليو، وديفيد هسو.

النظام يحمل اسم GROW² — اختصاراً لـ GROunding Which and Where — وهو يعالج ما يسمّيه الباحثون open-world affordance grounding، أي قدرة الروبوت على اختيار جسم عشوائي ليؤدّي وظيفة لم يُصمَّم لها أصلاً، ثم تحديد المنطقة الدقيقة من ذلك الجسم التي ينبغي التفاعل معها. المشكلة مزدوجة: أيّ أداة تُناسب المهمة؟ وأين بالضبط يجب أن يمسكها الروبوت أو يضغط عليها؟

التحدي الجوهري في هذا النوع من المسائل هو أن الحلول التقليدية تعتمد على تدريب ضخم بيانات متخصصة لكل سيناريو، وهو نهج هشّ في بيئات مفتوحة حيث تتغيّر الأشياء والسياقات باستمرار. يكسر GROW² هذه الحلقة بتقسيم عملية الـ grounding إلى مستويين هرميين: مستوى دلالي semantic ومستوى هندسي geometric، مستخدماً أجزاء الأشياء كوحدة وسيطة طبيعية تربط بينهما.

على المستوى الدلالي، يستعين النظام بنماذج اللغة والرؤية المدمجة VLMs لتحليل التعليمة اللغوية الطبيعية الواردة من المستخدم، كأن يقول “اقطع الكعكة”، ثم يختار الأداة الأنسب من بين الأشياء المتاحة، ويحدّد الأجزاء ذات الصلة في كلٍّ من الأداة والهدف — مثل حافة الطبق من جهة وسطح الكعكة من جهة أخرى. هذا الجزء يعتمد على الاستدلال المنطقي العام الذي تمتلكه نماذج VLMs دون الحاجة إلى بيانات تدريب خاصة بالمهمة.

على المستوى الهندسي، تتولّى نماذج الرؤية الأساسية foundation vision models ترجمة تلك الأجزاء المحدَّدة دلالياً إلى مناطق ثلاثية الأبعاد دقيقة، مستندةً إلى صورة RGB-D واحدة فقط — أي صورة ملونة مدعومة ببيانات العمق. لا حاجة لكاميرات متعددة أو أجهزة استشعار معقدة.

ما يجعل هذا النهج لافتاً هو قدرته على التعميم الفوري zero-shot generalization على فئات أشياء لم يتعرّض لها النظام أثناء التطوير. بدلاً من تعليم الروبوت كيف يستخدم كل أداة بعينها، يُعلَّم أن يفهم لماذا تصلح أجزاء معينة من أي شيء لأداء وظيفة محددة. هذه القفزة من التحفيظ إلى الفهم هي جوهر ما يُميّز GROW².

على صعيد الأداء، أثبتت التجارب الواردة في الورقة أن GROW² يتجاوز خطوط الأساس الحديثة state-of-the-art baselines على مقاييس التنبؤ بالإمكانية الوظيفية affordance prediction benchmarks، كما حقق أداءً متفوقاً في سيناريوهات الاستخدام الفعلي للروبوت داخل البيئات المحاكاة وخارجها في العالم الحقيقي. الاختبارات شملت مواقف مركّبة حيث تغيب الأداة المعتادة، ما يجبر النظام على التفكير الإبداعي في البدائل.

من منظور عملي، يفتح هذا البحث آفاقاً واسعة أمام روبوتات المنازل والمصانع والمستشفيات، إذ لا يمكن توقع كل سيناريو مسبقاً أو توفير كل أداة في كل لحظة. الروبوت الذي يستطيع أن يستنتج بنفسه أن مسطرةً يمكن أن تؤدي وظيفة مكشطة، أو أن وعاءً مقلوباً يُستخدم كقاعدة رفع، هو روبوت أقرب إلى الذكاء العملي الفعلي. المقاربة الهرمية التي يعتمدها GROW² تُبقي الباب مفتوحاً للتوسّع دون إعادة تدريب كلية، وهو ما يعني تكاليف تطوير أقل وقابلية نشر أعلى في بيئات متغيرة.

الورقة كاملة متاحة بصيغتَي PDF وHTML على arXiv ضمن تصنيف الروبوتات والذكاء الاصطناعي والرؤية الحاسوبية.

arXiv