
باحثون من سبع جامعات صينية حلوا معضلة أساسية في نماذج اللغة الكبيرة: عدم قدرتها على التعلم من المعلومات الجديدة دون إعادة تدريب باهظة التكلفة. إطار In-Place Test-Time Training الذي نشروه في أبريل 2026 يحول أي نموذج لغة إلى نظام قادر على تحديث أوزانه أثناء المحادثة مباشرة.
المشكلة بسيطة لكن محورية: ChatGPT وClaude وجميع النماذج الحالية تعمل بنمط ثابت. تُدرب مرة واحدة على بيانات قديمة، ثم تبقى جامدة أمام أي معلومة جديدة. حاولت تقنيات Test-Time Training السابقة معالجة هذا، لكنها فشلت لأسباب ثلاثة: عدم التوافق مع بنية المحولات، ارتفاع التكلفة الحاسوبية، واستخدام أهداف تدريب لا تتماشى مع طبيعة النمذجة اللغوية.
الحل يكمن في اختيار المكان المناسب للتدخل. بدلاً من تعديل النموذج بالكامل، يستهدف الإطار الجديد مصفوفة الإسقاط النهائية في طبقات MLP فقط. هذه المصفوفات تعمل كـ”أوزان سريعة” قابلة للتحديث دون المساس بالبنية الأساسية للنموذج.
الابتكار الثاني يتعلق بـهدف التدريب. استبدل الباحثون هدف الإعمار العام المستخدم في TTT التقليدي بهدف مخصص لمهمة “التنبؤ بالرمز التالي”، وهي المهمة الجوهرية في جميع نماذج اللغة. هذا التوافق النظري مع طبيعة النموذج حقق قفزة في الكفاءة.
- تحديد نقطة التدخل الأمثل: استهداف مصفوفة الإسقاط النهائية في طبقات MLP كأوزان سريعة قابلة للتحديث
- إعادة تصميم هدف التدريب: استبدال هدف الإعمار العام بهدف مخصص لمهمة التنبؤ بالرمز التالي
- تطوير آلية التحديث المجزأة: معالجة السياق على أجزاء لضمان التوافق مع المعالجة المتوازية
- ضمان التوافق الكامل: تصميم الإطار ليعمل مع أي نموذج لغة موجود دون إعادة هندسة
- تحسين الأساس النظري: ربط التحديثات بالمبادئ الرياضية للنمذجة اللغوية التراجعية
- تطبيق التحديث المتدرج: السماح للنموذج بالتعلم من كل جملة في السياق تدريجياً
- الحفاظ على الأداء الأساسي: ضمان عدم تدهور قدرات النموذج الأصلية أثناء التكيف
النتائج التجريبية مبهرة: نموذج بـ4 مليار معامل فقط حقق أداءً فائقاً على مهام تتطلب سياقات تمتد لـ128 ألف رمز. هذا يعادل معالجة نصوص بحجم كتب كاملة والتعلم منها أثناء القراءة. في التجارب المقارنة، تفوق الإطار على جميع طرق TTT المنافسة.
الفريق البحثي بقيادة Guhao Feng من جامعة بكين وShengjie Luo اختبر النهج على مستويين: كتحسين مباشر لنماذج موجودة، ونماذج مدربة من الصفر بقدرات TTT مدمجة. في الحالتين، أظهرت النتائج تحسناً ملحوظاً في التكيف مع المعلومات الجديدة.
هذا التطور يفتح آفاقاً جديدة أمام المطورين العرب العاملين على تطبيقات تتطلب تكيفاً مع البيانات المحلية. تخيل نموذج يتعلم من المحادثات باللهجة المحلية، أو يتكيف مع التطورات الإخبارية اليومية دون الحاجة لإعادة تدريب مكلفة.
التحدي الأكبر يبقى في السيطرة على جودة التعلم المستمر. كيف نضمن أن النموذج يتعلم المعلومات الصحيحة فقط؟ وماذا لو تعرض لمعلومات متضاربة أو مضللة؟ الورقة البحثية لا تقدم حلولاً قاطعة لهذه المعضلات، مما يترك المجال مفتوحاً لتطوير آليات حماية إضافية.



