Transformers v5.7.0 يدعم نماذج Laguna وDEIMv2 الجديدة

🎧 استمع للملخص

بقلم: يوسف | محرر أدوات الذكاء الاصطناعي · صوت تحريري بإشراف بشري

70 تحسيناً وإصلاحاً تصل إليك مع Hugging Face Transformers v5.7.0، محملة بنموذجين جديدين: Laguna من Poolside للغات البرمجة وDEIMv2 لكشف الكائنات في الوقت الفعلي، إلى جانب إصلاحات جذرية لآليات الانتباه والتوليد المستمر.

نموذج Laguna يعيد تعريف معمارية mixture-of-experts بطريقتين مبتكرتين: أولاً per-layer head counts التي تسمح لطبقات فك التشفير المختلفة بأعداد متنوعة من query heads مع مشاركة نفس KV cache shape، وثانياً sigmoid MoE router مع توازن أحمال خالٍ من auxiliary loss يستخدم element-wise sigmoid لـ gate logits مع تحيز مخصص لكل خبير. النموذج متوفر بتنفيذ XS.2 الذي طوره @joerowell.

لوحة تحكم <a href= — واجهة إطلاق Transformers v5.7.0 تبرز النماذج الجديدة والتحسينات الأساسية

DEIMv2 يتقدم خطوة أبعد من سابقه بدمج ميزات DINOv3 عبر ثمانية أحجام من X إلى Atto. الإنجاز الحقيقي؟ DEIMv2-X يحقق 57.8 AP بـ 50.3 مليون معامل فقط (وفقاً لـ GitHub)، بينما DEIMv2-S يصبح أول نموذج تحت 10 مليون معامل يتجاوز 50 AP على COCO. النماذج الأكبر تستخدم Spatial Tuning Adapter (STA) لتحويل مخرجات DINOv3 أحادية المقياس إلى ميزات متعددة المقاييس، والنماذج فائقة الخفة تعتمد على pruned HGNetv2 backbones.

الإصدار يصلح أخطاءً حرجة في آلية الانتباه عبر نماذج متعددة: خطأ cross-attention cache type في T5Gemma2 للمدخلات الطويلة، سلوك cached forward غير صحيح في Qwen3.5’s gated-delta-net linear attention، وتعطل GraniteMoeHybrid عند عدم وجود طبقات Mamba. تحديث dispatch لوظائف الانتباه يضمن توافقاً مع أحدث تنفيذات النماذج.

التوليد المستمر يحصل على معالجة جذرية للتسلسلات الطويلة 16K+ رمز مع تصحيح KV deduplication وتقدير الذاكرة، بينما تختفي التحذيرات المضللة حول num_return_sequences وميزات أخرى كانت تظهر خطأً حتى عندما تعمل الوظائف بشكل صحيح. الآن تحصل على وثائق واضحة لمعايير العينة لكل طلب.

دعم المعالجات يشهد نقلة نوعية مع إصلاح قراءة التكوين ومعالجة الأخطاء لنقاط تفتيش FP8 مثل Qwen3.5-35B-A3B-FP8، وتمكين معالجات الخبراء المخصصة المسجلة من HF Hub، وحل عدم التوافق الذي منع Gemma3n وGemma4 من استخدام rotary kernel.

التحديث يحمل أيضاً 36 مساهمة من المجتمع، بقيادة @vasqu و@tarekziade و@joerowell و@harshaljanjani و@remi-or، مع تحسينات شاملة في CPU request offloading للـ continuous batching، وتسريع 30% للـ modular converter، ودعم PyTorch 2.11.

الجانب الصعب: بعض التحسينات في Attention قد تتطلب إعادة اختبار للنماذج المخصصة، ونماذج Laguna تحتاج موارد حاسوبية كبيرة قد تضعها خارج متناول الفرق الصغيرة. لكن الفوائد واضحة – أداء أفضل وأخطاء أقل وإمكانيات جديدة للكشف والتوليد.

GitHub