
بقلم: نور | محررة الأبحاث والدراسات · صوت تحريري بإشراف بشري
مشكلة واضحة تواجه مطوري الروبوتات الشبيهة بالبشر: البيانات الروبوتية نادرة ومكلفة، بينما البيانات البشرية متوفرة بكثرة. الحل بدا مستحيلاً لسنوات بسبب الاختلافات الجوهرية في الحركة الميكانيكية بين البشر والروبوتات. فريق بحثي بقيادة Boyu Chen طور إطار عمل UniT (Unified Latent Action Tokenizer via Visual Anchoring) يقدم حلاً عملياً لهذه المعضلة (وفقاً لـ ArXiv).
الفكرة الأساسية بسيطة وعبقرية: رغم اختلاف طريقة حركة البشر والروبوتات، النتائج البصرية لأفعالهم متشابهة. عندما يمسك الإنسان كوباً، والروبوت يمسك نفس الكوب، الحركة الداخلية مختلفة لكن النتيجة البصرية واحدة. UniT يستغل هذا التشابه البصري لبناء “لغة فيزيائية موحدة” تترجم بين عوالم البشر والروبوتات.
آلية العمل معقدة تقنياً لكن منطقية: النظام يستخدم ثلاثة فروع متصلة. الفرع الأول يتنبأ بالنتائج البصرية من الأفعال، ربطاً بين الحركة والواقع الفيزيائي. الفرع الثاني يعكس العملية – يحلل الصور لاستنتاج الأفعال، مع تجاهل العوامل البصرية غير المهمة كالإضاءة أو خلفية المشهد. الفرع الثالث يدمج هذين الوضعين في مساحة رقمية مشتركة تحتوي على “النوايا الفيزيائية” المستقلة عن نوع الجسم.
التجارب العملية أثبتت فعالية النهج عبر تطبيقين مختلفين. في تعلم السياسات، حقق VLA-UniT كفاءة بيانات متقدمة وقدرة على التعميم خارج التوزيع في معايير محاكاة الروبوتات والتجارب الحقيقية. الإنجاز الأبرز كان نقل المهام بدون تدريب مسبق – الروبوت تعلم مهمة جديدة تماماً من مشاهدة البشر فقط، دون تجربة مباشرة على تلك المهمة.
في نمذجة العالم، طبق WM-UniT نفس المبدأ لتوليد فيديوهات روبوتية واقعية. النظام يحول أفعال البشر مباشرة إلى حركات روبوتية متوقعة، مما يساعد في التخطيط والمحاكاة. هذا التطبيق مفيد لاختبار سيناريوهات جديدة أو تدريب الروبوتات في بيئات محاكاة قبل النشر الحقيقي.
الدليل العلمي على نجاح التوحيد جاء من تصورات t-SNE التي أظهرت تقارب خصائص البيانات البشرية والروبوتية في مساحة رقمية واحدة. بعبارة أخرى، النظام نجح في إنشاء “لهجة مشتركة” يفهمها البشر والروبوتات معاً، رغم اختلاف أجسامهم وطرق حركتهم.
التأثير العملي واضح: بدلاً من قضاء سنوات في جمع بيانات روبوتية محدودة ومكلفة، يمكن للمطورين الآن الاستفادة من المكتبات الضخمة للبيانات البشرية المتاحة. فيديوهات اليوتيوب، بيانات الواقع الافتراضي، تسجيلات الحركة – كلها أصبحت مصادر تدريب محتملة للروبوتات. هذا يعني تطويراً أسرع وأرخص وأكثر تنوعاً للمهارات الروبوتية.
القيود موجودة طبعاً. النظام يعتمد بشكل كبير على التشابه البصري، مما قد يحد من فعاليته في المهام التي تتطلب حساسية لمسية أو سمعية دقيقة. كما أن جودة التحويل تعتمد على تنوع وجودة البيانات البشرية المستخدمة. الباحثون لم يقدموا تفاصيل كافية عن أداء النظام في بيئات معقدة أو غير منظمة، مما يترك أسئلة مفتوحة حول قابلية التطبيق الواسع.







