كيف يتعلم الروبوت الحركة قبل أن يفهم اللغة؟

🎧 استمع للملخص

بقلم: نور | محررة الأبحاث والدراسات · صوت تحريري بإشراف بشري

المشكلة التي يعرفها كل مَن عمل مع نماذج Vision-Language-Action (VLA): تُبنى هذه النماذج فوق ركيزة لغوية-بصرية ضخمة، ثم يُلحق بها وحدة إجراء تُدرَّب من الصفر. النتيجة؟ النموذج يحاول في آنٍ واحد أن يكتشف ديناميكيات الحركة الزمنية وأن يوائم الفضاءات المتعددة للبيانات، وهو عبء مضاعف يزداد تعقيداً حين تختلف الأجسام الروبوتية اختلافاً كبيراً من مهمة إلى أخرى. باحثون من جامعات متعددة قدّموا في ورقة بحثية نُشرت على arXiv في 24 يونيو 2026 إجابةً عملية: علّم وحدة الإجراء كيف تتحرك، قبل أن تتعلم كيف تفهم.

الفكرة المحورية في عمل Dong Jing وزملائه السبعة هي ما يسمّونه Action Priors، أي معرفة مسبقة بالبنية الزمنية للحركة، تُبنى عبر إطار تدريب من مرحلتين متمايزتين. في المرحلة الأولى، تتعلم وحدة الإجراء — وهي بنية خفيفة encoder-decoder مبنية على flow-matching — التسلسل الزمني للحركة من مسارات عمل غير مشروطة، دون أن ترى صورةً أو جملةً واحدة. الفكرة أن الحركة الفيزيائية لها قواعدها الخاصة المستقلة عن اللغة: كيف تنثني يدٌ آليّة، وكيف تتسارع وتتباطأ، وكيف تنتقل من نقطة إلى أخرى عبر مسار متسق. بتدريب الوحدة على هذه القواعد وحدها، تكتسب ما يشبه الحدس الحركي قبل أي تعقيد.

في المرحلة الثانية، لا تُرمى هذه المعرفة جانباً ويبدأ التدريب من جديد. بل يُعاد توظيف الـ decoder من المرحلة الأولى مباشرةً داخل إطار VLA الكامل، ويُضاف إليه تقطير كامن مبكر (early-stage latent distillation) يُبقي على التوافق بين فضاء embedding الحركة والتمثيلات البصرية-اللغوية، مع السماح بالتحسين الكامل للسياسة من طرف إلى طرف. بهذا يتحوّل الـ Prior من مجرد نقطة انطلاق إلى ضابطٍ يوجّه التدريب طوال العملية.

ثمة فائدة هندسية إضافية لا تظهر في العنوان: الـ encoder المُدرَّب في المرحلة الأولى يُستخدم لاحقاً كـ history compressor — يضغط سجل الحالات والإجراءات السابقة في رمز سياق زمني واحد (single temporal context token)، مما يمنح النموذج ذاكرةً حركيةً بتكلفة حسابية شبه معدومة. هذا التفصيل الأخير يكشف عن وعي المؤلفين بالقيود العملية: النماذج الكبيرة لا تُنشر فقط في المختبرات، وكل رمز إضافي له ثمن.

التحقق جاء على نطاق واسع نسبياً: 13 مهمة متنوعة في بيئات محاكاة وبيئات حقيقية، (وفقاً للورقة البحثية على arXiv) تغطي أجساماً روبوتية مختلفة. النتائج المُبلَّغ عنها ثلاثة: أسرع تقارب، ومعدلات نجاح أعلى، وأداء أقوى بشكل ملحوظ في مهام العالم الحقيقي حيث البيانات شحيحة. هذا الأخير هو التحدي الأصعب عملياً، إذ إن جمع بيانات تدريب روبوتية حقيقية مكلف للغاية، وقدرة النموذج على الأداء الجيد بعيّنات أقل تُترجم مباشرةً إلى وفورات في وقت التطوير والتكلفة.

الأهم من ذلك: حين تُكثَّف بيانات الحركة في المرحلة الأولى، يتحسن الأداء النهائي في VLA تحسناً مباشراً. هذا يعني أن منظومة التدريب قابلة للتوسّع بشكل مستقل — يمكنك جمع مزيد من مسارات الحركة غير المشروطة، وهي أسهل بكثير في التجميع من بيانات التدريب المُوصوفة لغوياً، وستنعكس فائدتها على النموذج الكامل.

ما يجعل هذا النهج مثيراً للاهتمام في سياق أوسع هو أنه يطرح تساؤلاً معمارياً حقيقياً: هل يجب أن تُدرَّب جميع مكونات النموذج المتعدد الوسائط معاً من البداية، أم أن لكل وسيط قواعده المنطقية الخاصة التي يستحق تعلُّمها أولاً؟ النموذج اللغوي يحمل مسبقاً فهماً لقواعد اللغة اكتسبه من مئات المليارات من الرموز. في المقابل، وحدة الإجراء تبدأ فارغة تماماً. منح هذه الوحدة شيئاً يشبه الحدس الحركي — حتى لو كان بسيطاً كالبنية الزمنية — قبل مواجهة تعقيد محاذاة الوسائط المتعددة، يبدو منطقياً بشكل يصعب الجدل فيه. السؤال الذي تتركه الورقة مفتوحاً هو مدى قابلية هذا الإطار للتطبيق على مهام تفاعل أكثر تعقيداً تتطلب تخطيطاً على المدى البعيد، وهو ما قد تستكشفه أعمال مقبلة.

arXiv