Hugging Face Transformers 5.10.1 إعادة إطلاق بعد فشل

🎧 استمع للملخص

بقلم: يوسف | محرر أدوات الذكاء الاصطناعي · صوت تحريري بإشراف بشري

اضطرت Hugging Face لسحب الإصدار 5.10.0 من مكتبة Transformers بعد نشره من فرع Git معطل، لتعود بالإصدار 5.10.1 حاملاً أربعة نماذج ذكاء اصطناعي جديدة وأكثر من مئة إصلاح تقني. “هذا ما يحدث عندما نستعجل الإصدار!” كما علق آرثر زوكر المطور الرئيسي، في اعتراف نادر بأخطاء إدارة المصادر المفتوحة.

الإصدار الجديد يضم Gemma4 12B Unified، وهو نموذج متعدد الوسائط يتخلى تماماً عن أبراج الترميز المنفصلة. بدلاً من استخدام برج الرؤية التقليدي، يسقط Gemma4 البكسلات الخام مباشرة في مساحة النموذج اللغوي عبر خط أنابيب Dense + LayerNorm مع تضمينات موضعية ثنائية الأبعاد. للصوت، يجزئ العينات الخام 16 كيلوهرتز إلى إطارات ثابتة الطول ويسقطها عبر خط أنابيب RMSNorm → Linear بسيط، مما يلغي الحاجة لمرمز Conformer التقليدي.

نموذج Sapiens2 يستهدف مهام الرؤية الحاسوبية البشرية، مدرب على مليار صورة بشرية منسقة. يقدم تحسينات قابلة للقياس: +4 mAP في تقدير الوضعة، +24.3 mIoU في تجزئة أجزاء الجسم، و45.6% تقليل في خطأ تقدير الأسطح الطبيعية. النماذج تتراوح من 0.4 مليار إلى 5 مليار معامل، تدرب بدقة 1K أصلية مع متغيرات هرمية 4K للاستدلال المكاني الممتد.

لقطة شاشة من صفحة إصدار Transformers 5.10.1 على <a href=

DeepSeek-OCR-2 يجمع معمارية هجينة غير تقليدية: مرمز رؤية SAM ViT-B + مرمز اهتمام هجين Qwen2، متصل عبر إسقاط MLP بنموذج لغة DeepSeek-V2 Mixture-of-Experts. الآلية الهجينة تطبق اهتماماً ثنائي الاتجاه على الرموز البصرية واهتماماً سببياً على رموز الاستعلام، مما يمكّن فهم الوثائق بكفاءة مع قدرات التأريض للإخراج المدرك للإحداثيات وتحويل الوثائق لتنسيق markdown.

من JetBrains يأتي Mellum، نموذج لغة Mixture-of-Experts مركز على الكود. مشتق من معمارية Qwen3-MoE مع RoPE منفصل لكل نوع طبقة ونافذة انزلاقية متداخلة. النموذج يحتوي على 12 مليار معامل إجمالي مع 2.5 مليار معامل نشط لكل رمز، يستخدم 64 خبير موجه مع تفعيل 8 لكل رمز عبر 28 طبقة.

الإصدار يعالج مشاكل نظامية عميقة في التوازي عبر نماذج متعددة شملت Gemma4 وAltCLIP وChineseClip وBlip-2 وWhisper وOvis2 وMoshi. التحديثات شملت إصلاحات لتوازي الموتر (TP) وتوازي الخبراء (EP) والبحث الشعاعي تحت إعدادات التوازي النموذجية، وإعادة هيكلة مدير التخزين المؤقت المستمر للتحكم الأوضح في التدفق والتعامل مع ظروف السباق في TP.

في التحسين الكمي، يضيف الإصدار دعم DeepGEMM BF16 ومزج FP8/FP4 وMegaMoE عبر إعادة هيكلة الطبقات الخطية المجمعة. كما أصلح خللاً في FP8 MoE reverse substring يؤثر على تهيئة DSv4، وخطأ في تكميم BitsAndBytes 4-bit/8-bit كان يسقط الموترات المجزأة من محولات الأوزان one-to-many بصمت.

تصحيحات التخزين المؤقت عالجت انحداراً في تهيئة تخزين مؤقت encoder-decoder حيث كان يطبق إعداد فك التشفير خطأً على تخزين الاهتمام المتقاطع، وحلت RuntimeError ناتج عن حدود حجم البافر عند تسخين التخزين المؤقت على أجهزة MPS. إضافياً، حُسنت البنية التحتية للاختبار لدعم بيئات التخزين المؤقت للقراءة فقط المستخدمة في CI.

الفشل الأولي يكشف هشاشة حتى أكثر مشاريع المصادر المفتوحة نضجاً أمام ضغط الإصدارات السريعة. لكن الاستجابة السريعة وإعادة الإطلاق خلال يومين تظهر مرونة النظام البيئي للمصادر المفتوحة عند مواجهة الأخطاء الحرجة.

GitHub Hugging Face