نظام VLK للروبوتات البشرية

🎧 استمع للملخص

بقلم: نور | محررة الأبحاث والدراسات · صوت تحريري بإشراف بشري

كيف تُعلّم روبوتاً بشرياً التجوّل في غرفة المعيشة وحمل الأشياء دون أن تُجري آلاف التجارب الفعلية المُكلفة؟ هذا بالضبط ما يطرحه فريق من باحثي جامعة كاليفورنيا بيركلي وجامعة ستانفورد في ورقتهم المنشورة على arXiv بتاريخ 29 يونيو 2026، حيث قدّموا نظام VLK — اختصار لـ Vision-Language-Kinematics — الذي يكسر عقبة جوهرية أعاقت الروبوتات البشرية لسنوات.

المشكلة الحقيقية لم تكن في الأجهزة، بل في البيانات. تدريب روبوت إدراكي على التنقل والتفاعل مع الأشياء يتطلب ثلاثة عناصر متزامنة: صوراً مأخوذة من منظور الروبوت نفسه (egocentric)، وأوامر لغوية مرتبطة بها، ومسارات حركية كاملة متوافقة مع بنية الجسم الآلي. لا يوجد حتى الآن مصدر بيانات موحّد يوفر هذه الثلاثية معاً وبحجم كافٍ للتدريب — وهذا هو الاختناق الذي عالجه الفريق.

الحل الذي اعتمده الباحثون يقوم على توليد هذه البيانات اصطناعياً بالكامل. تبدأ الخطوة الأولى بإعادة بناء بيئات داخلية حقيقية بدقة متريكية باستخدام تقنية 3D Gaussian Splatting، وهي أسلوب رسومي حديث يُعيد تمثيل المشاهد ثلاثية الأبعاد بدقة عالية من صور عادية. بعد ذلك، يستغل النظام المعلومات الكاملة عن البيئة المُعاد بناؤها — تسمى المعلومات الممتازة (privileged scene information) — لتوليد مسارات تنقل وتفاعل مع الأشياء. في المرحلة الأخيرة، تُصنَّع الصور من منظور الروبوت بأثر رجعي لكل مسار.

النتيجة الكمية لافتة: 48,000 مسار مقترن (وفقاً للورقة البحثية) أُنتجت دون أي تدخل بشري. كل مسار يحمل ثلاثة طبقات من البيانات: الصور البصرية، والأوامر اللغوية، والمسارات الحركية الكاملة للجسم. هذا الحجم كان شبه مستحيل تجميعه بالطرق التقليدية التي تعتمد على توجيه الروبوت يدوياً أو استخدام أجسام بشرية كمرجع.

على هذه البيانات، دُرِّبت سياسة VLK التي تعمل على مستوى توقع المسارات الحركية قصيرة الأمد لكامل الجسم. المدخلات: صورة من منظور الروبوت + أمر لغوي. المخرجات: مسار حركي كامل للجسم يُترجمه بعد ذلك نظام تتبع حركي (whole-body tracker) إلى أوامر مباشرة للمحركات على الروبوت الفعلي. هذا الفصل بين التنبؤ بالمسار وتنفيذه عبر متتبع مخصص يتيح نقل السياسة من البيئة الاصطناعية إلى الواقعي (sim-to-real) بشكل أكثر سلاسة.

التحقق من النتائج جرى على الروبوت البشري Unitree G1 الفعلي، وليس في بيئة محاكاة افتراضية فقط. المهمتان اللتان اختُبر عليهما النظام هما: التنقل في بيئات داخلية، ونقل كائنات مفردة من نقطة إلى أخرى. هاتان المهمتان تمثلان أساس كثير من تطبيقات الروبوتات المنزلية والخدمية، وإثبات أن نظاماً مُدرَّباً بالكامل على بيانات مصطنعة يعمل على معدات حقيقية يُعدّ خطوة قابلة للقياس في هذا الحقل.

ما يجعل هذا النهج ذا ثقل بحثي هو قابليته للتوسع. على عكس التدريب الميداني الذي يستلزم ساعات من الإشراف البشري وبيئات تجريبية مُعدّة بعناية، يمكن نظرياً تشغيل خط أنابيب VLK على أي بيئة داخلية يمكن مسحها ضوئياً وإعادة بنائها. وقد نشر الباحثون موقعاً للمشروع يتضمن مقاطع مرئية للتجارب، وهو ما يتيح المقارنة المباشرة بين التوقعات الاصطناعية والسلوك الفعلي للروبوت.

يرتبط هذا العمل بالنقاش المتصاعد حول الروبوتات البشرية الخادمة، وإن كانت الفجوة بين نقل جسم واحد والتعامل مع بيئة ديناميكية كاملة — مع بشر متحركين وأشياء متغيرة — لا تزال واسعة. VLK لا يدّعي حلّ هذه الفجوة، لكنه يقدّم خطوة منهجية نحو جعل اكتساب البيانات — وهو العائق الأصعب في الروبوتات التجسيدية — أقل اعتماداً على التدخل البشري المُكلف.

ArXiv