RevengeBench: اختبار استنتاج سياسات القرار من السلوك

🎧 استمع للملخص

بقلم: نور | محررة الأبحاث والدراسات · صوت تحريري بإشراف بشري

بين 34% و72% — هذا هو الفارق بين أضعف وأقوى نموذج لغوي حين يواجه مهمة غير مألوفة: مراقبة عميل ذكاء اصطناعي يلعب لعبة، ثم كتابة كود يحاكي منطقه الداخلي دون أي اطلاع على الشيفرة الأصلية. (وفقاً للورقة البحثية على arXiv) هذه المهمة هي صلب RevengeBench، المعيار البحثي الجديد الذي قدّمه فريق من باحثي جامعة توبنغن بقيادة Babak Rahmani وSebastian Dziadzio وزملاؤهم.

الفكرة ليست جديدة في العلوم بمعناها الأعمق: طوال تاريخ البحث العلمي، كان العلماء يستنتجون الآليات الخفية من الأفعال الظاهرة — مشكلة عكسية تصبح أكثر قابلية للحل حين يُضاف إليها التدخل المضبوط، لا الملاحظة السلبية فحسب. ما يفعله RevengeBench هو نقل هذا الإطار إلى عالم الكود والنماذج اللغوية: هل يستطيع نموذج LLM أن يعكس هندسة سياسة قرار مخفية، ويكتبها كبرنامج قابل للتنفيذ، بمجرد مشاهدة كيف يتصرف الخصم في مواقف مختلفة؟

يتضمن المعيار 75 سياسة قرار مولّدة بواسطة نماذج LLM، مُعايَرة بنظام تصنيف Elo، موزعة عبر خمس بيئات ألعاب مختلفة، مستخلصة من مسارات بطولة CodeClash. الآلية: يُشاهد النموذج المُختبَر السياسةَ الهدف وهي تلعب ضد خصوم مختارة عشوائياً، ثم يصمّم بنفسه “مسابير سلوكية” — أي سياسات خصم مخصصة تستفزّ ردود فعل كاشفة — وبعد ذلك يقدّم فرضيته على شكل كود قابل للتنفيذ. التقييم يعتمد على مقاييس مسافة الفعل المستمرة، لا مجرد المقارنة الثنائية. (وفقاً لـ arXiv)

الأرقام تكشف هوّة واسعة بين النماذج. عبر اثني عشر نموذجاً لغوياً طليعياً، تراوحت جودة الاسترداد بين إغلاق 34% من المسافة الأولية بين السياسة المُستنتجة والأصلية، ووصلت أفضل النماذج إلى 72% من تلك المسافة. (وفقاً للورقة البحثية) لكن الأهم من الأرقام المطلقة هو ما يكشفه المعيار على المستوى التشغيلي: السياسات المُستردّة أثبتت فائدتها في بطولات لاعب-ضد-لاعب، إذ منحت النماذج التي طبّقتها ميزة تنافسية قابلة للقياس — والمفارقة أن هذه الميزة كانت أشد وضوحاً لدى النماذج الأضعف أصلاً، تلك التي تجد صعوبة في تصميم استراتيجيات مضادة من الصفر.

هذا يطرح سؤالاً عملياً ذا ثقل: هل يصبح الاستنتاج العكسي للسلوك بديلاً عن التصميم الاستراتيجي المباشر للنماذج الأقل قدرة؟ يبدو أن RevengeBench يجيب بنعم جزئية — المراقبة المنهجية ثم التركيب يمكن أن تعوّض بعض ضعف القدرة الاستنتاجية المباشرة. لكن الفجوة بين 34% و72% تُظهر أن المهمة لا تزال تفصل النماذج الطليعية عن بعضها فصلاً حاداً، وهو ما يجعلها benchmark ذات قوة تمييزية حقيقية، لا مجرد اختبار نجاح/فشل.

الورقة تُموضع RevengeBench عند تقاطع ثلاثة مجالات: نمذجة الخصم في الألعاب، وقابلية تفسير السياسات البرمجية، والسؤال الأشمل عن استنتاج الآليات الكامنة من الملاحظة وحدها. التقدم في هذه المهمة لا يعني فقط ذكاءً اصطناعياً أكثر مهارة في الألعاب — بل قد يعني نماذج قادرة على فهم منطق الأنظمة الخارجية دون الحاجة إلى الوصول إلى شيفرتها، وهو ما له تداعيات تتجاوز بيئات الألعاب نحو أمن البرمجيات وتحليل الأنظمة الموزعة.

ما يُميّز هذا العمل عن معايير benchmark الاعتيادية هو أن التصميم التجريبي نفسه جزء من الاختبار — النموذج لا يُختبر فقط على دقة استنتاجه، بل على ذكائه في اختيار التجارب التي يُجريها. هذا أقرب إلى منطق العلم التجريبي من منطق اختبارات الذاكرة. الكود المصدر للمعيار متاح عبر الورقة على arXiv للباحثين الراغبين في تطبيقه على نماذجهم.

arXiv