Vector Policy Optimization تحسن البحث وقت الاستنتاج

🎧 استمع للملخص

بقلم: نور | محررة الأبحاث والدراسات · صوت تحريري بإشراف بشري

نشر فريق بحثي مكون من تسعة علماء من جامعات متعددة خوارزمية Vector Policy Optimization (VPO) التي تقدم حلاً جديداً لقيود البحث وقت الاستنتاج في نماذج اللغة الكبيرة. الخوارزمية تستبدل مقدر الفائدة في GRPO وتدرب النماذج على توقع دوال مكافآت متنوعة وإنتاج حلول متخصصة لتوازنات مختلفة في فضاء المكافآت المتجهة.

تبرز المشكلة عندما تواجه النماذج المدربة تقليدياً بيئات جديدة تتطلب إجراءات بحث معقدة مثل AlphaEvolve التي تختار من عدة مسارات باستخدام دوال مكافآت متخصصة. النماذج المحسنة لمكافأة عددية واحدة تنتج توزيعات استجابة منخفضة الإنتروبيا، مما يحد من تنوعها ويضعف أداءها في خوارزميات البحث التي تحتاج خيارات متعددة.

الفكرة الأساسية في VPO بسيطة ومبتكرة: المكافآت في الواقع متجهة، ليس عددية. في توليد الكود، تقيس صحة كل حالة اختبار منفصلة. في التطبيقات التفاعلية، تراعي شخصيات مستخدمين مختلفة أو نماذج مكافآت متعددة. بدلاً من دمج هذه القيم في رقم واحد، تستفيد VPO من تركيبها الطبيعي لتدريب مجموعة حلول متخصصة.

تحليل بنية المكافآت: حدد المكونات المختلفة لدالة المكافآت في مهمتك – حالات الاختبار في البرمجة، معايير التقييم المتعددة، أو تفضيلات مستخدمين مختلفة
إعداد البيئة التدريبية: قم بتثبيت مكتبة VPO واضبط النموذج الأساسي – الخوارزمية تعمل كبديل مباشر لمقدر GRPO
تكوين التدريب المتجه: بدلاً من دمج مكونات المكافآت، دع VPO تتعامل مع كل مكون منفصلاً أثناء تحديث معاملات النموذج
ضبط التوازن بين التخصص والتنوع: اضبط معاملات التدريب لضمان تخصص كل حل لمجموعة مختلفة من التوازنات دون فقدان القدرة العامة
اختبار على مهام متعددة: طبق النموذج المدرب على مجموعة مهام متنوعة لقياس قدرته على التعميم مقارنة بنماذج GRPO التقليدية
قياس فعالية البحث: استخدم معايير pass@k وbest@k مع ميزانيات بحث مختلفة لتقييم التحسن في الأداء

اختبر الفريق الخوارزمية على أربع مهام مختلفة (وفقاً للبحث المنشور) وحققت VPO أداءً مطابقاً أو متفوقاً على أقوى خوارزميات التعلم المعزز العددية. النتيجة المثيرة أن الفجوة في الأداء تتسع كلما زادت ميزانية البحث المتاحة – مما يعني أن VPO تستفيد أكثر من الوقت والموارد الإضافية.

في تجارب البحث التطويري تحديداً، فتحت نماذج VPO مسائل لم تستطع نماذج GRPO حلها إطلاقاً. هذا يشير إلى تحسن نوعي في القدرة على استكشاف فضاء الحلول المعقدة، ليس مجرد تحسين كمي في النتائج.

التوقيت حاسم لأن البحث وقت الاستنتاج يصبح ممارسة معيارية في الصناعة. شركات مثل OpenAI مع o1 وAnthropic مع Claude تركز على تحسين قدرة النماذج على “التفكير” خطوة بخطوة قبل الإجابة. VPO تقدم إطار عمل منهجي لتحسين هذه القدرة منذ مرحلة التدريب الأساسية.

العقبة التقنية الرئيسية تكمن في اختيار التمثيل الصحيح للمكافآت. تحتاج لفهم عميق لطبيعة مهمتك والسياقات المختلفة التي ستطبق فيها النموذج. إذا لم تحدد المقايضات المناسبة مسبقاً، قد لا تحصل على التحسن المتوقع. هذا يتطلب استثماراً أكبر في تحليل المشكلة مقارنة بالطرق التقليدية.

كما أن الخوارزمية تزيد تعقيد التدريب وتتطلب موارد حاسوبية إضافية لإدارة مجموعة الحلول المتنوعة. هذا قد يحد من تطبيقها في البيئات محدودة الموارد أو المشاريع التي تحتاج نتائج سريعة.

ArXiv