تقنية PreRL تطور تدريب النماذج على الاستنتاج

🎧 استمع للملخص

بقلم: نور | محررة الأبحاث والدراسات · صوت تحريري بإشراف بشري

فريق بحثي من معهد علوم الحاسوب الصيني بقيادة يوقياو تان ومينجهنغ وانغ يقترح نهجاً جذرياً لتدريب النماذج اللغوية على الاستنتاج المنطقي. التقنية الجديدة المسماة PreRL تتخلى عن الاقتراب التقليدي لتحسين التوزيع الشرطي P(y|x) وتستهدف بدلاً منه التوزيع الهامشي P(y) مباشرة (وفقاً للورقة البحثية المنشورة في ArXiv).

المشكلة الأساسية التي يعالجها البحث واضحة: التعلم التعزيزي التقليدي RLVR محدود بتوزيع الإخراج الموجود في النموذج الأساسي. عندما تحاول تحسين P(y|x)، فأنت محصور بما يستطيع النموذج إنتاجه أصلاً. لكن تحسين P(y) في مساحة ما قبل التدريب يحرر النموذج من هذا القيد ويسمح بترميز قدرات استنتاج جديدة مع الحفاظ على قدرة الاستكشاف الواسعة.

التدريب المسبق التقليدي يواجه تحدياً آخر: اعتماده على مجموعات بيانات ثابتة للتعلم السلبي يخلق انحرافاً في التوزيع يضعف من تحسين الاستنتاج المستهدف. PreRL تحل هذا بتطبيق تحديثات مباشرة مدفوعة بالمكافآت على P(y). الباحثون أثبتوا نظرياً وتجريبياً وجود توافق قوي في التدرج بين log P(y) و log P(y|x)، مما يجعل PreRL بديلاً فعالاً للتعلم التعزيزي المعياري.

الاكتشاف الأكثر إثارة في البحث هو آلية التعزيز بالعينات السالبة NSR داخل PreRL. هذه الآلية تعمل كمحرك استثنائي الفعالية للاستنتاج، حيث تقوم NSR-PreRL بتقليم مساحات الاستنتاج الخاطئة بسرعة مع تحفيز سلوكيات التفكير التأملي الداخلية. النتيجة مذهلة: زيادة أفكار الانتقال بمقدار 14.89 مرة وأفكار التأمل بمقدار 6.54 مرة.

تحليل التوزيع الأساسي: قياس وفهم توزيع P(y) الحالي في النموذج المراد تحسينه قبل البدء بأي تعديلات
إعداد آلية المكافآت والعقوبات: تصميم نظام مكافآت يعزز المسارات الصحيحة ويعاقب الاستنتاجات الخاطئة بناءً على معايير محددة
تطبيق NSR-PreRL للتقليم الأولي: استخدام التعزيز بالعينات السالبة لإزالة المسارات الخاطئة من مساحة الاستنتاج وتوسيع الأفق
مراقبة مؤشرات التفكير التأملي: قياس التحسن في أفكار الانتقال والتأمل للتأكد من فعالية العملية
الانتقال للتحسين الدقيق: بعد تحديد المساحة الفرعية الصحيحة، استخدام التعلم التعزيزي التقليدي للتحسين الدقيق
التقييم والضبط المستمر: مراجعة الأداء وضبط المعاملات حسب الحاجة لضمان الاستقرار والتحسن المستمر

استراتيجية Policy Reincarnation في DSRL تمثل التطبيق العملي لهذه الأفكار. النهج يبدأ بتهيئة النماذج باستخدام NSR-PreRL لتوسيع أفق الاستنتاج، ثم ينتقل للتعلم التعزيزي المعياري للتحسين الدقيق. التجارب الواسعة أظهرت تفوق DSRL المستمر على الأساليب التقليدية القوية، مما يؤكد أن تقليم مساحة ما قبل التدريب يوجه السياسة بفعالية نحو مساحة فرعية مكررة للاستنتاج الصحيح.

ما يجعل هذا البحث مثيراً للاهتمام هو نهجه في “التعلم بالنفي أولاً”. بدلاً من محاولة تعليم النموذج الإجابات الصحيحة مباشرة، تعلمه أولاً كيفية رفض الإجابات الخاطئة. هذا يقلل الضوضاء في مساحة البحث ويجعل التعلم اللاحق أكثر دقة وكفاءة.

التحديات العملية في تطبيق PreRL تتركز حول ضبط معاملات المكافآت والعقوبات. العقاب المفرط قد يؤدي لتقليم مساحات مفيدة، بينما العقاب الضعيف لا يحقق التحسن المطلوب. الفريق البحثي يقترح نهجاً تدريجياً يبدأ بعقوبات خفيفة ويزيدها تدريجياً مع تقدم التدريب، مما يضمن توازناً صحياً بين الاستكشاف والاستغلال.

النتائج تشير لإمكانية تطبيق هذا النهج على مهام استنتاج متنوعة، من الرياضيات والمنطق إلى التفكير السببي المعقد. لكن الباحثين يؤكدون أهمية فهم خصائص المهمة المحددة قبل تطبيق التقنية، حيث أن بعض المهام قد تستفيد أكثر من الاقتراب التقليدي.

ArXiv