تقنية DRPO تطور التعلم المعزز للنماذج اللغوية السلس

🎧 استمع للملخص

بقلم: نور | محررة الأبحاث والدراسات · صوت تحريري بإشراف بشري

يواجه تدريب النماذج اللغوية الكبيرة باستخدام التعلم المعزز تحدياً جوهرياً: كيف تمنع النموذج من الانحراف بعيداً عن سلوكه المرغوب دون أن تفقد القدرة على التعلم؟

أزمة PPO وGRPO تكمن في اعتمادهما على آلية “ratio-clipping” التي تقيس نسبة الأهمية بين السياسات القديمة والجديدة. هذا النهج يصبح مضللاً في المفردات الطويلة حيث يمكن أن تشير النسبة إلى استقرار زائف بينما التوزيع الحقيقي للاحتماليات يتغير جذرياً. تقنية DPPO الأحدث حاولت إصلاح هذا العيب بالانتقال من النسبة إلى قناع يعتمد على الاختلاف المطلق في احتماليات الرموز، لكنها ظلت تعاني من مشكلة “القناع الصلب” – حيث يُحذف التدرج كاملاً بمجرد تجاوز الحد المسموح.

فريق بحثي بقيادة جياروي ياو وشيانغشين تشو طور تقنية Divergence Regularized Policy Optimization (DRPO) التي تتجاوز هذه القيود عبر استبدال القناع الصلب بنظام تنظيم تربيعي سلس مُرجح بالميزة (وفقاً للورقة البحثية في ArXiv).

الابتكار الأساسي في DRPO يكمن في محافظتها على نفس هندسة منطقة الثقة الموجودة في DPPO، لكن مع توليد أوزان تدرج مستمرة ومحدودة تعمل على تخفيف التحديثات المنحرفة تدريجياً بدلاً من قطعها فجأة. هذا يوفر إشارات تصحيحية حتى خارج حدود منطقة الثقة، مما يستغل جميع العينات التدريبية دون هدر.

اختبرت التجارب DRPO عبر أحجام نماذج متعددة ومعماريات مختلفة وإعدادات دقة متنوعة، مما كشف تحسناً ثابتاً في استقرار وكفاءة التدريب مقارنة بالطرق الحالية. التحسن لا يقتصر على الأداء فحسب، بل يشمل أيضاً تقليل هدر الموارد الحاسوبية المرتبط بتجاهل التدرجات المفيدة.

المفهوم الأساسي للـ “advantage-weighted quadratic regularizer” يعني أن قوة التصحيح تتناسب مع أهمية الرمز في تحقيق الهدف النهائي. الرموز عالية الأهمية تحصل على تصحيح أقوى، بينما الرموز الأقل أهمية تتلقى تعديلاً أخف، مما يحقق توازناً دقيقاً بين الاستقرار والتعلم الفعال.

هذا التطوير يحمل أهمية خاصة للتطبيقات التي تتطلب تدريباً طويل المدى أو تعمل بموارد حاسوبية محدودة. القدرة على الاستفادة من كل عينة تدريبية دون تضحية بالاستقرار تفتح المجال أمام تدريب نماذج أكثر تطوراً بكفاءة أعلى في استخدام الطاقة والوقت.

التحدي الذي يواجه التطبيق العملي لـ DRPO هو ضبط معاملات التنظيم التربيعي لكل نموذج ومهمة على حدة، مما قد يتطلب تجارب إضافية لتحديد الإعدادات المثلى في بيئات الإنتاج المختلفة.

ArXiv