
بقلم: نور | محررة الأبحاث والدراسات · صوت تحريري بإشراف بشري
العقبة الأصعب في تدريب النماذج اللغوية الكبيرة عبر التعلم المعزز ليست حجم البيانات ولا قوة الحوسبة — بل هي الحاجة إلى إجابات “صحيحة” معروفة مسبقاً لتقييم أداء النموذج. فريق بحثي جديد يتحدى هذا الافتراض الأساسي بإطار يُسمى RiVER، يُثبت أن النماذج يمكنها الارتقاء حتى في المهام التي لا توجد فيها إجابة مرجعية محددة.
الورقة البحثية المنشورة على arXiv في 25 يونيو 2026 من تأليف تسعة باحثين بينهم Yingyu Lin وQiyue Gao وNikki Lijing Kuang، تطرح نهجاً مختلفاً جوهرياً: بدلاً من مقارنة مخرجات النموذج بإجابة مرجعية ثابتة، يعتمد RiVER على ترتيب الحلول النسبي وتغذية راجعة تنفيذية محددة القيمة بوصفها إشارة تدريب كافية.
المشكلة التي يعالجها البحث معروفة في مجتمع الذكاء الاصطناعي: أسلوب التعلم المعزز بمكافآت قابلة للتحقق (RLVR) — الذي أثبت فعاليته في تدريب نماذج كالتفكير العميق — يفترض وجود إجابة صواب واحدة يُقاس إليها أداء النموذج. لكن طيفاً واسعاً من المهام العملية في هندسة الخوارزميات والتحسين الحسابي ليس لها حل أمثل واحد؛ ثمة حلول أفضل وأسوأ، لكن لا “صواب” مطلق.
لتجاوز هذا القيد، يواجه RiVER تحديين محددين حددهما الباحثون عند تطبيق التعلم المعزز الجماعي النسبي على مكافآت مستمرة القيمة. الأول هو هيمنة المقياس: حين تتفاوت قيم النتائج تفاوتاً كبيراً عبر المسائل المختلفة، تُشوّه هذه التفاوتات عملية تحديث السياسة وتجعل التدريب غير مستقر. الثاني هو هيمنة التكرار: حين يُعاد أخذ عينات من حلول دون المستوى الأمثل مرات كثيرة، قد تطغى هذه الحلول على الحلول النادرة الأكثر جودة وتُضعف أثرها في التدريب.
الحل الذي يطرحه RiVER يقوم على تشكيل المكافأة بطريقة مُعايَرة: مقارنات على مستوى كل مسألة منفردة، مع تضخيم أثر الحلول الأعلى ترتيباً، مع الإبقاء في الوقت ذاته على تغذية راجعة محدودة للحلول الصحيحة الأخرى بدلاً من حذفها كلياً. هذا التوازن الدقيق هو ما يُميز الإطار عن الخطوط الأساسية التي تستخدم درجات التنفيذ الخام مباشرةً.
التدريب جرى على 12 مهمة من مسابقة AtCoder Heuristic Contest، وهي مسائل تحسين خوارزمي بلا حل أمثل معروف. أما الاختبار فامتد عبر ثلاثة معايير مستقلة: ALE-Bench المتخصص في هندسة الخوارزميات، وLiveCodeBench وUSACO اللذان يقيسان قدرات البرمجة بالحلول الدقيقة — وهو نوع مختلف تماماً عن مهام التدريب.
النتائج (وفقاً لورقة arXiv) جاءت على عدة مستويات. على صعيد المهام التحسينية، رفع RiVER تصنيف نموذج Qwen3-8B على مقياس ALE بنسبة 8.9%، ورفع تصنيف GLM-Z1-9B-0414 بنسبة 9.4%. هذه النتائج وحدها لم تكن لتستدعي الاهتمام الواسع، لأن التحسن في نوع المهام التي دُرِّب عليها النموذج أمر متوقع.
الأهم هو ما حدث على المعايير الأخرى. رغم أن النماذج لم تتدرب على أي مسألة تمتلك حلاً مرجعياً محدداً، تحسّن أداؤها على LiveCodeBench بمتوسط مطلق 2.4% وعلى USACO بمتوسط مطلق 3.5% (وفقاً للورقة البحثية). بمعنى آخر، التدريب على مهام التحسين الخوارزمي بمكافآت نسبية نقل مهارات إلى مهام البرمجة الدقيقة التقليدية — وهو نقل معرفي لم تحققه الخطوط الأساسية التي اعتمدت على الدرجات الخام.
هذا الأخير هو ربما النقطة الأكثر دلالة في البحث: الخطوط الأساسية التي استخدمت درجات التنفيذ الخام نجحت في تحسين تصنيف ALE، لكنها فشلت في التحويل إلى معايير الحلول الدقيقة. RiVER، بتشكيل المكافأة الحذر، حقق الاثنين معاً. هذا يُشير إلى أن المشكلة لم تكن في غياب الإجابة المرجعية أصلاً، بل في طريقة استخدام الإشارة المتاحة.
من زاوية عملية، يفتح هذا النهج الباب أمام تدريب النماذج على فئات أوسع بكثير من المهام — كل مجال يمكن فيه تقييم الحلول نسبياً دون تحديد الحل الأمثل المطلق. هندسة الشبكات، وتحسين قواعد البيانات، وتصميم الخوارزميات الإبداعية، كلها مرشحة لتطبيقات مشابهة. القيد الوحيد الذي يُقرّه الباحثون ضمنياً هو أن هذا النهج يستلزم وجود بيئة تنفيذ قابلة للقياس — أي إمكانية تشغيل الحل وقياس جودته حتى لو لم تعرف الحل الأمثل.
المسار الذي يرسمه RiVER يُكمل توجهاً أوسع في أبحاث تدريب النماذج اللغوية: الابتعاد عن الاعتماد المطلق على البيانات المُصنَّفة بشرياً، نحو إشارات تدريب يمكن توليدها آلياً من بيئة التنفيذ ذاتها. إن صمدت هذه النتائج أمام مزيد من التكرار والتحقق من مختبرات مستقلة، فقد تُعيد رسم حدود ما يمكن تدريب النماذج عليه بكفاءة — خاصةً في مجالات كانت تُعدّ شحيحة البيانات المرجعية.







