إطار InSight لاكتساب المهارات الذاتي في روبوتات VLA

🎧 استمع للملخص

بقلم: نور | محررة الأبحاث والدراسات · صوت تحريري بإشراف بشري

الحاجز الأكبر أمام الروبوتات العاملة اليوم ليس القدرة على التنفيذ، بل محدودية ما تعلّمته أصلاً. نموذج VLA (Vision-Language-Action) قد يُجيد سكب السائل من زجاجة، لكنه لن يعرف كيف يُغلق درجاً لم يرَ تمثيلاً له في بيانات تدريبه. هذه الفجوة هي بالضبط ما يحاول إطار InSight الجديد من جامعة ستانفورد سدّه، عبر تمكين الروبوت من اكتشاف ما يجهله وتعلّمه تلقائياً دون أن يتدخل إنسان واحد.

الفكرة المحورية التي يقوم عليها الإطار هي مفهوم “قابلية التوجيه على مستوى الحركة البدائية” (primitive steerability). بدلاً من تدريب النموذج على مهمة كاملة دفعةً واحدة، يُجزّئ InSight أي مهمة إلى وحدات حركية أصغر تُعبّر عنها بلغة طبيعية: “حرّك الكلّاب نحو الوعاء”، “ارفع للأعلى”، “اسكب الزجاجة”. هذه الوحدات البدائية تصبح لبنات بناء يمكن تركيبها لاحقاً في مهام جديدة أطول أفقاً دون الحاجة إلى أي تظاهرات بشرية إضافية (وفقاً للورقة البحثية على arXiv).

يعمل InSight على مرحلتين متكاملتين. المرحلة الأولى هي خط أنابيب تقسيم آلي يُحلّل التظاهرات الموجودة ويُقسّمها إلى حركات بدائية مُعنونة، مستخدماً نموذج لغة-رؤية (VLM) لتحليل الخطة وإحداثيات نهاية الذراع الآلية لتحديد نقاط الانفصال بدقة. المرحلة الثانية هي ما يُسمّيه الباحثون “دولاب البيانات الموجّه بـVLM” (VLM-guided data flywheel): حين يواجه الروبوت مهمة جديدة تستدعي حركات بدائية غائبة عن مخزونه، يستعين بالـVLM لاقتراح تحكّم منخفض المستوى، يُحاول تنفيذ التظاهرة المطلوبة بنفسه، ثم يُصنّف ما نجح منها تلقائياً ويُدمجه في مجموعة التدريب.

خمس مهام اختبرها الفريق المؤلف من Maggie Wang وزملائها في بيئات المحاكاة والواقع المادي معاً: قلب مكعب، إغلاق درج، كنس، لي وتدوير، وسكب سائل. جميعها أُنجزت دون أن يُقدّم أي إنسان تظاهرة واحدة للمهمة الهدف. الروبوت حدّد بنفسه أي الحركات البدائية ينقصه، واستوردها وتعلّمها وبنى عليها.

ما يميّز هذا النهج عن مسارات أخرى في تعلّم الروبوتات هو نقطة الانطلاق: InSight لا يستغني عن بيانات التدريب الأولية، بل يُضخّمها بذكاء. النماذج التقليدية محدودة بما جُمع لها، ونماذج التعلّم بالتعزيز تحتاج إلى دوال مكافأة دقيقة يصعب تصميمها للمهام الفيزيائية. InSight يقع في منطقة وسطى: يبدأ برصيد حركي موجود، يُشخّص الفجوات، ويُغلقها باستقلالية. النتيجة الأهم وفق الباحثين هي إمكانية تركيب الحركات البدائية المتعلَّمة لتنفيذ مهام طويلة الأفق لم يسبق رؤيتها—وهو ما يُشبه إلى حدٍّ بعيد كيف يُعمّم الإنسان مهاراته في سياقات جديدة.

على صعيد القيود التي يعترف بها الإطار ضمنياً: آلية التصفية التلقائي للتظاهرات الناجحة تعني أن الروبوت قد يستغرق وقتاً طويلاً في توليد بيانات كافية لحركات بدائية نادرة أو صعبة التنفيذ فيزيائياً. كما أن اعتماد VLM لاقتراح التحكّم المنخفض المستوى يظل مقيّداً بقدرة النموذج اللغوي على فهم متطلبات الفيزياء الدقيقة—وهي منطقة لا تزال هشّة حتى في أفضل النماذج الحالية. يبقى السؤال المفتوح: هل يتعمّم هذا النهج على روبوتات ذات درجات حرية أعلى، أو بيئات أقل قابلية للتنبؤ من مختبرات البحث؟ الورقة تُقدّم إجابات لمهام محددة المعالم، لكنها لا تزعم أكثر من ذلك—وهو نزاهة علمية تُحسب للفريق.

لمن يعمل في مجال الروبوتات أو يتابع تطور نماذج VLA، InSight يُقدّم بنية نظرية واضحة قابلة للاختبار: إن نجحت ترجمتها خارج ظروف المختبر، فقد نكون أمام نقطة تحوّل في كيفية بناء منظومات روبوتية تتعلّم باستمرار لا تُبرمج مرة واحدة. وهذا بالضبط ما يحتاجه قطاع يراهن على روبوتات قادرة على التكيّف مع بيئات عمل متغيّرة—من المصانع إلى المنازل.

arXiv