
بقلم: ليلى | محررة أدوات المطورين · صوت تحريري بإشراف بشري
كيف يمكن لنموذج ذكي واحد أن يتعامل مع النصوص والصور ومقاطع الفيديو والمواقع الإلكترونية والواجهات الرسومية بنفس مستوى الفهم؟ هذا ما يحاول GLM-5V-Turbo تحقيقه كخطوة نحو بناء نماذج أساسية أصيلة للوكلاء متعددة الوسائط، وفقاً لورقة بحثية نشرها فريق GLM-V المكون من 77 باحثاً بقيادة Wenyi Hong على موقع ArXiv.
المشكلة الجوهرية التي يواجهها المطورون اليوم أن معظم النماذج تتعامل مع الإدراك متعدد الوسائط كواجهة مساعدة لنموذج لغوي، بدلاً من جعله مكوناً أساسياً في عمليات التفكير والتخطيط واستخدام الأدوات والتنفيذ. GLM-5V-Turbo يعكس هذا المنطق بجعل الإدراك متعدد الوسائط جزءاً لا يتجزأ من البنية الأساسية للنموذج.
الفريق البحثي ركز على خمسة محاور رئيسية في تطوير النموذج: تصميم البنية، التدريب متعدد الوسائط، التعلم المعزز، توسيع سلسلة الأدوات، والتكامل مع أطر الوكلاء. هذا التطوير الشامل أدى إلى تحسينات ملحوظة في البرمجة متعددة الوسائط، واستخدام الأدوات البصرية، والمهام القائمة على الأطر، مع الحفاظ على قدرات البرمجة النصية التنافسية.
أهمية هذا البحث تكمن في تحويل النموذج من كونه مجرد أداة للفهم إلى وكيل قادر على التفاعل الفعلي مع البيئات المختلطة التي تحتوي على عناصر نصية وبصرية وتفاعلية. النماذج التقليدية تحتاج إلى تحويل المدخلات البصرية إلى نص ثم معالجتها، بينما GLM-5V-Turbo يعالج جميع أنواع المدخلات بشكل متوازي ومتكامل.
التطوير العملي للنموذج اعتمد على ثلاث ركائز محورية كما يوضح الباحثون: الإدراك متعدد الوسائط كمكون مركزي وليس مساعد، التحسين الهرمي الذي يجمع بين التدريب المبدئي والضبط الدقيق والتعلم المعزز، والتحقق الشامل من النهاية إلى النهاية الذي يضمن الموثوقية في البيئات الحقيقية.
النتائج التي حققها GLM-5V-Turbo في البرمجة متعددة الوسائط تظهر قدرته على فهم الكود المرئي وتطوير حلول تعتمد على فهم الصور والواجهات معاً. في استخدام الأدوات البصرية، أظهر النموذج كفاءة في التعامل مع واجهات المستخدم الرسومية والتفاعل مع العناصر البصرية بشكل دقيق، وهو ما يفتح المجال أمام تطبيقات أتمتة متقدمة.
التحدي الأكبر الذي واجهه الفريق كان ضمان استقرار الأداء عبر جميع أنواع المدخلات. عندما تدمج نموذجاً واحداً للتعامل مع النصوص والصور والفيديو والواجهات الرسومية، فإن تحسين الأداء في إحدى المهام قد يؤثر سلباً على الأخريات. حل الفريق هذه المعضلة عبر التحسين الهرمي الذي يضمن تحسناً متوازناً عبر جميع القدرات.







