6 نماذج ذكاء اصطناعي جديدة في Transformers 5.8.0

🎧 استمع للملخص

بقلم: ليلى | محررة أدوات المطورين · صوت تحريري بإشراف بشري

حررت Hugging Face مكتبة Transformers الإصدار 5.8.0 بمجموعة شاملة من النماذج المتطورة والتحديثات الجوهرية التي تعيد تشكيل منظومة تطوير الذكاء الاصطناعي. يأتي الإصدار محملاً بـ6 نماذج جديدة تتراوح من المعمارية المختلطة للخبراء إلى نماذج الرؤية المتخصصة في المؤسسات، مع إلغاء كامل لدعم Apex وقفزات أداء تصل إلى 300 ضعف في عمليات تحويل الرموز.

واجهة إصدار Transformers 5.8.0 مع النماذج الجديدة — الإصدار الجديد يضم 6 نماذج متقدمة بمعمارية مبتكرة

يقود التحديث نموذج DeepSeek V4 الذي يمثل الجيل التالي من نماذج Mixture of Experts مع ابتكارات معمارية جذرية. استبدل النموذج تقنية Multi-head Latent Attention بتصميم هجين يجمع بين الانتباه المحلي والبعيد المدى، كما أدخل Manifold-Constrained Hyper-Connections عوضاً عن الاتصالات المتبقية التقليدية. يشمل التطبيق DeepSeek V4-Flash وDeepSeek V4-Pro ونسخهما الأساسية التي تتشارك المعمارية مع اختلافات في العرض والعمق وعدد الخبراء والأوزان.

من جانب التسريع التنبئي، يدخل Gemma 4 Assistant كنموذج نصي مدمج يمكّن speculative decoding لنماذج Gemma 4 عبر طريقة Multi-Token Prediction. يستفيد النموذج من KV sharing عبر المعمارية بالكامل، مما يتيح إعادة استخدام ذاكرة KV cache المملوءة بواسطة النموذج المستهدف وتخطي مرحلة pre-fill تماماً. تضمن معمارية cross-attention الاستفادة القصوى من سياق النموذج المستهدف لتوقع مسودات رموز أكثر دقة في كل جولة صياغة.

تتنوع النماذج الجديدة لتغطي تطبيقات المؤسسات والمهام متعددة الوسائط. يختص Granite 4 Vision من IBM Research في استخراج البيانات على مستوى المؤسسة مع تركيز على الرسوم البيانية (Chart2CSV, Chart2Summary, Chart2Code) والجداول (JSON, HTML, OTSL) وأزواج المفاتيح والقيم الدلالية. يبني النموذج على LLaVA-NeXT مع ابتكارات معمارية تشمل SigLIP2 Vision Encoder وWindow Q-Former Projectors وDeepStack Feature Injection بـ8 نقاط حقن من الرؤية إلى LLM.

يمثل EXAONE 4.5 إنجازاً مميزاً كأول نموذج رؤية-لغة مفتوح الأوزان من LG AI Research بـ33 مليار معامل إجمالي منها 1.2 مليار من مشفر الرؤية. حقق النموذج أداءً تنافسياً في المعايير العامة مع تفوق واضح في فهم المستندات والاستدلال السياقي الكوري، ويدعم مفردات موسعة تصل إلى 153,600 رمز ونوافذ سياقية حتى 256K رمز مع آلية Multi-Token Prediction.

لقطاع المعالجة الصوتية، يطور Granite Speech Plus النموذج الأساسي من خلال تحسين العارض عبر استهلاك دمج الحالات المخفية النهائية للمشفر مع مجموعة فرعية من حالاته الوسطية على طول البعد المميز. يوفر النموذج نسخ الصوت مع تعليقات المتحدث وطوابع زمنية على مستوى الكلمات من خلال الاستجابة للمطالبات النصية، مع وراثة نفس مكونات Granite Speech الأساسية.

تكتمل المجموعة بنماذج PP-FormulaNet-L و PP-FormulaNet_plus-L المصممة للتعرف على بنية الجداول في المستندات والمشاهد الطبيعية. تركز هذه النماذج الخفيفة على الاكتشاف الدقيق لبنى الجداول والصيغ الرياضية من الصور كجزء من سلسلة SLANet.

يحمل الإصدار تغييراً جذرياً بإزالة تكامل Apex من المكتبة بالكامل، بما في ذلك استخدام RMSNorm في T5 والنماذج ذات الصلة (وفقاً لـ Hugging Face). هذا القرار يجبر المستخدمين المعتمدين على Apex للدقة المختلطة أو العمليات المدمجة للانتقال إلى معادلات PyTorch الأصلية، مما يعكس توجه المكتبة نحو التبعيات الأصلية.

حقق الفريق تحسينات أداء مذهلة بحل انحدار كبير في `PreTrainedTokenizer.convert_ids_to_tokens` حيث كان `skip_special_tokens=True` يعيد بناء مجموعة الرموز الخاصة في كل تكرار، مما أسفر عن تسريع 300 ضعف لهذا المسار البرمجي (وفقاً لـ GitHub). كما أصلح إصدار مشاكل تعيين المحولات النصية لنماذج DeepSeek R1 المقطرة (Qwen2) ونماذج DeepSeek OCR.

شارك أكثر من 30 مطوراً من المجتمع في هذا الإصدار، مع مساهمات بارزة من @artem-spector في Granite 4 Vision و@SindhuRaghuram97 في Gemma 4 Assistant و@nuxlear في EXAONE 4.5 و@ArthurZucker في DeepSeek V4. هذا التنوع في المساهمات يؤكد قوة النموذج التعاوني لـ Hugging Face في دفع حدود الذكاء الاصطناعي المفتوح المصدر.

رغم الإضافات المبهرة، يواجه المطورون تحدي الانتقال من Apex، خاصة أولئك المعتمدين على تحسينات الذاكرة المتقدمة. هذا التغيير قد يتطلب إعادة هيكلة كبيرة لبعض المشاريع، لكنه يضمن استقرار أفضل على المدى الطويل مع النظام البيئي لـ PyTorch.

GitHub Hugging Face Transformers