layer contribution في التعلم المعزز: طبقة واحدة تكفي لتدريب LLMs

🎧 استمع للملخص

بقلم: نور | محررة الأبحاث والدراسات · صوت تحريري بإشراف بشري

افتراض راسخ يقود مجال ما بعد التدريب منذ سنوات: أن تحسين نماذج اللغة الكبيرة عبر التعلم المعزز يتطلب تحديث جميع معاملاتها بالتساوي. ورقة بحثية نشرها فريق من سبعة باحثين على arXiv في الأول من يوليو 2026 تقلب هذا الافتراض رأساً على عقب: طبقة واحدة من المحوّل كافية، في كثير من الحالات، لاستعادة معظم مكاسب التدريب المعزز الكامل — بل قد تتخطاه أحياناً.

الفريق بقيادة Zijian Zhang ومعه Rizhen Hu وAthanasios Glentis وDawei Li وChung-Yiu Yau وHongzhou Lin وMingyi Hong أجرى ما وصفه بـ”دراسة منهجية طبقة بطبقة” لفهم كيف يتوزع تأثير التعلم المعزز عبر بنية المحوّل (Transformer). النتيجة صادمة من حيث بساطتها: مكاسب RL تتمركز في عدد صغير من الطبقات، وأحياناً في طبقة وحيدة، (وفقاً للبحث المنشور على arXiv)، وليس موزعة بالتساوي كما يفترض التصميم الحالي للخوارزميات.

لقياس هذه الظاهرة، ابتكر الباحثون مقياساً جديداً أسموه layer contribution، وهو يقيس النسبة من التحسن الكلي الذي تحققه كل طبقة حين تُدرَّب منفردةً. اختبروا المقياس على سبعة نماذج من عائلتين: Qwen3 وQwen2.5، وعبر ثلاثة خوارزميات RL هي GRPO وGiGPO وDr. GRPO. امتدت المهام عبر ثلاثة مجالات: الاستدلال الرياضي، وتوليد الشيفرة البرمجية، واتخاذ القرار الوكيلي (agentic decision-making).

أكثر ما يلفت الانتباه ليس النتيجة وحدها، بل استقرارها عبر كل هذا التنوع. النمط الهيكلي نفسه يظهر مراراً وتكراراً: الطبقات ذات المساهمة العالية تتركز في منتصف المحوّل، فيما تبقى الطبقات القريبة من المدخلات والمخرجات هامشية التأثير. والأكثر إثارةً أن ترتيب الطبقات حسب مساهمتها يظل مترابطاً بقوة بصرف النظر عن مجموعة البيانات أو المهمة أو عائلة النموذج أو خوارزمية RL المستخدمة.

هذا الاكتشاف يطرح سؤالاً عملياً مباشراً: إذا كانت طبقة أو اثنتان تحملان ثقل التكيّف، فلماذا ندفع التكلفة الحسابية لتحديث عشرات الطبقات الأخرى؟ الإجابة المضمنة في البحث هي أننا لا ينبغي أن نفعل ذلك. يفتح هذا الباب أمام استراتيجيات تدريب أكثر كفاءة، حيث يمكن تحديد “الطبقة الذهبية” مسبقاً وتوجيه موارد التدريب إليها بدلاً من توزيعها بالتساوي على البنية الكاملة — وهو ما قد يُغيّر حسابات التكلفة في مرحلة post-training تغييراً جوهرياً.

من الزاوية المنهجية، تبقى تساؤلات مشروعة حول قابلية التعميم: هل ينطبق النمط ذاته على نماذج من عائلات مختلفة كـLLaMA أو Mistral؟ وهل يتغير توزيع الطبقات مع تغيير نوع المهمة تغييراً جذرياً أو الانتقال لنماذج أضخم مما اختبره الفريق؟ البحث صريح في كونه مقتصراً على Qwen، ما يجعل التحقق المستقل خطوة ضرورية قبل بناء أطر تدريب جديدة على هذه النتائج. رغم ذلك، يظل هذا العمل من أكثر البحوث التي تستحق المتابعة هذا الصيف لكل من يعمل على fine-tuning أو post-training للنماذج الكبيرة — لأن مجرد طرح السؤال الصحيح يكفي أحياناً لإعادة رسم خريطة الميدان.

arXiv