Randomized YaRN لتعميم السياق الطويل في نماذج اللغة حتى 128K

🎧 استمع للملخص

بقلم: نور | محررة الأبحاث والدراسات · صوت تحريري بإشراف بشري

المشكلة معروفة لكل من يبني نماذج لغة كبيرة: تُدرَّب هذه النماذج على تسلسلات قصيرة، ثم تُمدَّد بتدريب إضافي لتعمل على سياقات أطول، غير أنها تظل عاجزة عن التعميم الجيد حين تواجه نصوصاً أطول بكثير مما رأته خلال التدريب. باحثون من جامعة تكساس أوستن — Manas Mehta وFangcong Yin وGreg Durrett — قدّموا إجابة عملية لهذه المعضلة في ورقة بحثية نُشرت على arXiv في 22 يونيو 2026، تحت مسمى Randomized YaRN.

الفكرة الجوهرية في هذه الطريقة تقوم على خداع النموذج إيجابياً خلال التدريب. بدلاً من تعريض النموذج فقط للتشفيرات الموضعية الطبيعية المقابلة للبيانات القصيرة التي يتدرب عليها، تعمل Randomized YaRN على دمج ثلاثة عناصر في آنٍ واحد: الاستقراء الموضعي القائم على YaRN (Rotary Position Embedding scaling)، والتشفيرات الموضعية العشوائية، ومنهج درجي لأطوال السياق يُعرف بـlength curriculum. الحاصل من هذا الدمج أن الرموز النصية tokens تُسنَد إليها تشفيرات موضعية مسحوبة عشوائياً من نطاق موضعي أوسع بكثير، حتى حين يكون النص المُدخَل قصيراً. بذلك يتعلم النموذج مناطق من فضاء التمثيل الموضعي لم يرَها بشكل طبيعي، وهو ما يجعل التعامل مع السياقات البعيدة جداً عن توزيع التدريب ممكناً حين يحين وقت الاستنتاج inference.

التقييم جرى على معيارَين صعبَين للتفكير في السياقات الطويلة: BABILong الذي يختبر الاستدلال متعدد الخطوات عبر نصوص مطوّلة، وMRCR (Multi-Round Coreference Resolution) الذي يقيس قدرة النموذج على تتبع الإشارات المرجعية عبر محادثات متعددة الجولات. كلا المعيارَين يمثّل حالة استخدام حقيقية لا اختباراً نظرياً — وهذا ما يمنح النتائج ثقلها العملي.

والنتائج (وفقاً للورقة البحثية) دالّة على أكثر من مستوى: حين يُدرَّب النموذج على بيانات بسياق لا يتجاوز 8 آلاف رمز، تُحسّن Randomized YaRN أداء التفكير باطّراد على أطوال سياق تمتد من 16 ألف إلى 128 ألف رمز، متفوقةً على Fine-tuning القياسي في كل هذه المستويات. الأهم أن أكبر المكاسب تتركز عند الأطوال الأشد بُعداً عن توزيع التدريب — أي عند 128K — وهي النقطة التي تنهار فيها عادةً معظم أساليب التمديد التقليدية.

ما يجعل هذه النتيجة مثيرة للاهتمام من زاوية هندسية هو أن الطريقة لا تتطلب بيانات طويلة خلال التدريب. المشكلة التاريخية في تمديد النماذج كانت تكلفة تجميع وتدريب نصوص طويلة فعلاً — وهو أمر مُكلف حوسبياً ونادر الجودة. Randomized YaRN تتحايل على هذا القيد بأن تُعلّم النموذج التوزيعات الموضعية البعيدة out-of-distribution بطريقة تصاعدية gradual أثناء التدريب على بيانات قصيرة عادية، ما يعني انخفاضاً كبيراً في متطلبات التدريب دون خسارة في قدرة التعميم.

يُلمح الباحثون إلى أن هذا النهج التدريجي في التعرض للتوزيعات الموضعية خارج المألوف يُشكّل وصفةً قابلة للتعميم لبناء نماذج ذات استدلال موثوق على سياقات طويلة — لا مجرد تعديل نقطي لنموذج بعينه. وهذا يطرح سؤالاً مفتوحاً للمجتمع البحثي: هل يمكن دمج هذا الأسلوب مع أساليب التدريب الأخرى كـRoPE scaling أو ALiBi، وما حدود مكاسبه عند الأطوال الأعلى من 128K؟

من المنظور العملي، إن كنت تبني نموذجاً أو تضبطه fine-tune على مهام تستلزم قراءة وثائق طويلة أو محادثات ممتدة أو قواعد معرفية ضخمة، فإن Randomized YaRN تقدّم مساراً أكثر كفاءة من الاعتماد على بيانات تدريب طويلة مكلفة. الورقة البحثية متاحة كاملةً للمطّلعين على النسخة HTML التجريبية.

arXiv