
بقلم: نور | محررة الأبحاث والدراسات · صوت تحريري بإشراف بشري
12 لعبة جديدة مبنية بالكامل على Unreal Engine 5 تشكل أساس أحدث معيار لتقييم وكلاء الذكاء الاصطناعي، حسب (وفقاً لـ ArXiv)، في خطوة تهدف لسد الفجوات الحالية في طرق قياس أداء نماذج الرؤية واللغة داخل البيئات التفاعلية المعقدة.
فريق بحثي مكون من 12 عالماً بقيادة Mingxian Lin وShengju Qian طوّر منصة OmniGameArena للتغلب على قصور المعايير الحالية التي تركز على نتيجة المحاولة الأولى فقط وتتجاهل السيناريوهات متعددة اللاعبين. المشكلة الأساسية في المعايير السابقة أنها لا توفر بروتوكولات موحدة لمقارنة أنواع مختلفة من الوكلاء – النماذج التجارية مثل GPT-4V، النماذج مفتوحة المصدر، والسياسات المتخصصة في الألعاب – على قدم المساواة.
المنصة الجديدة تضم 12 لعبة موزعة على ثلاثة أنماط: 7 ألعاب فردية Solo تختبر المهارات الأساسية للملاحة والاستكشاف، 3 ألعاب منافسة PvP تتطلب استراتيجيات تنافسية ضد خصوم أذكياء، ولعبتين تعاونيتين Coop تحتاج تنسيقاً معقداً بين عدة وكلاء. جميع الألعاب تستخدم واجهات إجراءات موحدة لضمان عدالة المقارنة.
- منحنى ديناميكيات التحسين IDC: نظام تفكير ذاتي يستخدم نموذج لغة متخصص لتحسين مطالبات المهارات تلقائياً عبر جولات متعددة، مما يكشف قدرة الوكيل على التعلم من تجاربه السابقة
- قياس التطور عبر الجولات: بدلاً من تسجيل نتيجة واحدة، المعيار يتتبع كيفية تحسن الأداء عبر عدة محاولات، مما يميز بين الوكلاء القادرين على التعلم والآخرين العاجزين عنه
- اختبار النقل للمهام الجديدة: كل وكيل يُختبر على متغيرات جديدة من المهام لم يرها من قبل، لقياس قدرته على تعميم المهارات المكتسبة
- تقييم 12 وكيلاً متنوعاً: شمل الاختبار نماذج تجارية مثل GPT-4V وClaude-3.5، ونماذج مفتوحة المصدر، وسياسات متخصصة في الألعاب، مع تركيز عميق على أربعة وكلاء متفوقين
- بيئة واقعية زمنية فعلية: استخدام Unreal Engine 5 يوفر فيزياء معقدة ومؤثرات بصرية متقدمة تحاكي تعقيد الألعاب التجارية الحديثة
النتائج الأولية تكشف تفاوتاً صارخاً في الأداء بين أنماط اللعب المختلفة. معظم الوكلاء المختبرة حققت نتائج مقبولة في الألعاب الفردية البسيطة، لكنها واجهت انهياراً في الأداء عند الانتقال للسيناريوهات التعاونية أو المنافسة المباشرة. هذا يشير إلى فجوة كبيرة في فهم ديناميكيات التفاعل الاجتماعي والتنسيق الاستراتيجي.
الأمر المثير للاهتمام أن 81% من الوكلاء أظهرت تحسناً ملموساً عبر جولات نظام IDC، لكن درجة التحسن تباينت بشكل كبير. الوكلاء المتقدمة استطاعت تحسين أدائها بنسبة تصل إلى 40% في السيناريوهات التعاونية (وفقاً لـ ArXiv)، بينما الأخرى تحسنت بنسب أقل من 15%.
المعيار يكشف أيضاً عن مشكلة في قدرة النماذج الحالية على التعامل مع المواقف غير المتوقعة داخل اللعبة. النماذج التجارية الكبيرة مثل GPT-4V أظهرت أداءً قوياً في المهام المبرمجة مسبقاً، لكنها فشلت في التكيف مع تغييرات قواعد اللعبة أو ظهور استراتيجيات جديدة من الخصوم.
هذا التطوير يأتي في وقت حرج للصناعة، حيث تتزايد الاستثمارات في وكلاء الألعاب الذكية للاستخدام في التدريب والمحاكاة والترفيه. الشركات الكبرى مثل OpenAI وDeepMind تعمل على تطوير وكلاء قادرين على اللعب والتفاعل بمستوى بشري، لكن المعايير السابقة لم تكن دقيقة بما فيه الكفاية لقياس التقدم الحقيقي.
الفريق البحثي يخطط لإتاحة المعيار مفتوح المصدر قريباً مع كامل الكود والألعاب والبيانات، مما يمكّن مجتمع الأبحاث من تبني معيار موحد لتقييم وكلائهم. هذا قد يسرّع من وتيرة التطوير ويحسن من جودة المقارنات بين النماذج المختلفة.
المشروع متاح حالياً كورقة بحثية على منصة ArXiv مع تفاصيل كاملة حول المنهجية والنتائج والحدود الحالية للنظام. الباحثون يدعون إلى اعتماد واسع للمعيار لتحسين شفافية ودقة تقييم وكلاء الألعاب في المستقبل.







