Transformers 5.9.0 مع نماذج Cohere2Moe وHRM-Text الجديدة

بقلم: يوسف | محرر أدوات الذكاء الاصطناعي · صوت تحريري بإشراف بشري

Hugging Face تدفع حدود الذكاء الاصطناعي إلى الأمام مع إطلاق Transformers 5.9.0 الذي يضم ثلاثة نماذج رائدة تعيد تعريف معالجة اللغة الطبيعية والصوت. التحديث ليس مجرد إضافات جديدة، بل نقلة نوعية في بنية النماذج وقدراتها على التعامل مع المهام المعقدة.

Cohere2Moe: ثورة في نماذج الخبراء المختلطة

نموذج Cohere2Moe يكسر القوالب التقليدية بدمج تقنيات Mixture-of-Experts مع أنماط انتباه هجينة تجمع بين sliding window وfull attention layers. البنية المعمارية تستخدم خبراء مشتركين ومسارين منفصلين، مع دعم نوافذ سياق ضخمة تمكن النموذج من معالجة نصوص طويلة بكفاءة استثنائية – قدرة حيوية للتطبيقات التي تتطلب فهماً عميقاً للسياق المترابط.

HRM-Text: التفكير الهرمي يلتقي الحوسبة السريعة

النموذج الثاني، HRM-Text، يقدم نهجاً ثورياً في النمذجة التلقائية للغة من خلال Hierarchical Reasoning Model يعتمد على مكدسين من المحولات بوظائف متميزة. المكدس الأول (H) يركز على التخطيط المجرد البطيء، بينما المكدس الثاني (L) يتولى الحوسبة التفصيلية السريعة داخل تكرار متداخل. النموذج يدمج PrefixLM attention حيث رموز التعليمات تحضر بطريقة ثنائية الاتجاه بينما رموز الاستجابة تتبع النمط السببي، مع بوابات sigmoid output لكل رأس وRMSNorm بدون معاملات.

Parakeet وتطوير المعالجة الصوتية

التحديث يوسع الدعم الصوتي بشكل كبير من خلال إضافة نقاط فحص AudioFlamingoNext model وتحسين قابلية تجميع ترميز الصوت والرؤية عبر standalone pure functions. التحسينات تشمل رسائل خطأ أوضح عند تحميل الصوت من ملفات الفيديو، وتوثيقاً جديداً شاملاً لمعالجات الصوت والفيديو – خطوة مهمة نحو دعم أفضل للتطبيقات متعددة الوسائط.

تغييرات جذرية تتطلب انتباه المطورين

المطورون يواجهون تحدياً مهماً: مدخل text_embeds للنماذج SAM3 وEdgeTAM وSAM3-Lite-Text يتطلب الآن تضمينات نصية كاملة بدلاً من مخرجات pooler فقط، لمواءمته مع باقي النماذج في المكتبة (وفقاً لـ GitHub Hugging Face). التغيير يأتي ضمن إصلاحات تسريبات الذاكرة الناتجة عن LRU decorators في نماذج الرؤية – مشكلة كانت تؤثر على استقرار النماذج في الإنتاج.

إصلاحات الجيل التلقائي والأداء

التحديث يعالج مشاكل جوهرية في الجيل التلقائي، منها inputs_embeds وper_layer_inputs handling لنموذج Gemma4، وAttributeError في دالة generate() لنموذج RAG بسبب حقول التكوين المفقودة. كما تم إصلاح اختبارات الجيل غير المستقرة للنماذج متعددة الوسائط من خلال حجب image_start/end_token_id أثناء أخذ العينات.

الإصدار يضم أكثر من 50 تحسيناً وإصلاحاً من مساهمات مجتمعية واسعة، مع إضافات مهمة مثل دعم tensor parallelism وإخفاء activation footprint باستخدام CUDA graph pool. التحسينات تشمل أيضاً دعم XPU للنماذج الجديدة ومعالجة أخطاء محسّنة عبر المنصات المختلفة – تطوير يعكس نضج المكتبة ونموها المستمر.

هذا التحديث يؤكد أن Hugging Face لا تكتفي بمواكبة التطورات، بل تقود الابتكار في مجال النماذج اللغوية المتقدمة.

GitHub Hugging Face