RoadmapBench: وكلاء البرمجة يفشلون في التطوير الهندسي

🎧 استمع للملخص

بقلم: نور | محررة الأبحاث والدراسات · صوت تحريري بإشراف بشري

أفضل نموذج اختُبر في RoadmapBench لم يُفلح في حل سوى 39.1% من المهام — وهذا هو البطل الأول على الإطلاق في المنافسة. الأضعف لم يتجاوز 5.2%. هذان الرقمان وحدهما يكفيان لإعادة ضبط التوقعات حول ما تستطيعه وكلاء البرمجة اليوم فعلياً خارج بيئات الاختبار المُصطنعة.

الإشكالية التي دفعت الباحثين من جامعات ومؤسسات بحثية متعددة إلى بناء هذا المعيار هي أن معظم الـ benchmarks القائمة تقيس قدرة النماذج على إصلاح ثغرة واحدة في مستودع Python، ثم تُصدر حكماً ثنائياً: نجح أو فشل. هذا لا يعكس ما يحدث فعلاً في غرف التطوير، حيث قد يمتد تطوير إصدار واحد من مشروع برمجي لأشهر، ويشمل عشرات الملفات، وعدة لغات، ومئات القرارات التقنية المتشابكة (وفقاً للورقة البحثية على arXiv).

جاء RoadmapBench ليسدّ هذه الفجوة بتصميم مختلف جذرياً: 115 مهمة مستخرجة من ترقيات حقيقية لمشاريع مفتوحة المصدر، تغطي 17 مستودعاً بـ5 لغات برمجة. كل مهمة تضع الوكيل أمام snapshot من الكود في إصدار مصدر محدد، وتزوّده بـ”خريطة طريق” متعددة الأهداف تطلب منه تطبيق الوظائف التي جاء بها الإصدار الأحدث. الوسيط الإحصائي لحجم التعديل المطلوب يبلغ 3,700 سطر كود موزّعة على 51 ملفاً — (وفقاً لـ arXiv). هذا ليس bug fix، هذا هندسة برمجية حقيقية.

اختبر الفريق 13 نموذجاً حدودياً (frontier models) وجاءت النتائج كاشفة. Claude Opus 4.7 جاء في الصدارة بنسبة 39.1% فقط من المهام المحلولة، بينما جلس النموذج الأضعف في ذيل القائمة بنسبة 5.2%. الفجوة الواسعة بين هذه النتائج ومعدلات النجاح المرتفعة التي تحققها النفس النماذج في اختبارات إصلاح الأخطاء التقليدية تشير بوضوح إلى أن الأداء الجيد على SWE-bench أو ما يشبهه لا يترجم بالضرورة إلى كفاءة في التطوير الهندسي الممتد.

الفرق المنهجي بين RoadmapBench والمعايير السابقة يكمن في ثلاثة محاور: أولاً التنوع اللغوي — خمس لغات برمجة بدلاً من الاقتصار على Python. ثانياً الأفق الزمني — المهام تحاكي دورة حياة تطوير كاملة لا مشكلة نقطية. ثالثاً التقييم الدقيق — بدلاً من الحكم الثنائي، يعتمد المعيار تقييماً متدرجاً يعكس التقدم الجزئي، مما يمنح صورة أغنى عن طبيعة الفشل ومواضعه.

هذه النتائج تطرح سؤالاً مشروعاً أمام كل من يبني على افتراض أن وكلاء البرمجة جاهزون للاستقلالية الكاملة في بيئات الإنتاج: ما الفجوة الحقيقية بين ما يستطيعه النموذج في demo وما يُنجزه على codebase حي؟ RoadmapBench يقترح أن هذه الفجوة أعمق مما تُوحي به معدلات النجاح الحالية في Leaderboards، وأن مجتمع البحث بحاجة إلى معايير تضغط على النماذج بحجم ومدى يوازيان الواقع الهندسي.

الورقة متاحة على arXiv بإصدارها الثاني الصادر في 19 مايو 2026، ويمكن مراجعة الكود والبيانات عبر الروابط المرفقة بها.

arXiv