
تدفق Hugging Face بإصدار جديد من مكتبة Transformers 5.5.0 يحمل ثلاث إضافات ستعيد تعريف كيفية تعامل المطورين مع الذكاء الاصطناعي متعدد الوسائط والنصوص الطويلة والموسيقى.
Gemma 4 يكسر قواعد معالجة الصور التقليدية. بدلاً من ضغط كل صورة إلى مربع ثابت بحجم 224×224 بكسل كما تفعل معظم النماذج، يحافظ على النسبة الطبيعية للصورة مع تقسيمها لرقع يجب أن تكون قابلة للقسمة على 48. النموذج متاح بثلاثة أحجام: 1B و13B و27B معاملاً، ويدعم معالجة الصور حتى 2.6 مليون بكسل باستخدام نظام 2D RoPE لفهم العلاقات المكانية مثل “أعلى” و”أسفل” و”يسار” و”يمين”.

- 70 رمزاً مرناً: 630 رقعة قبل التجميع لمساحة 161 ألف بكسل تقريباً
- 140 رمزاً مرناً: 1,260 رقعة لمساحة 323 ألف بكسل تقريباً
- 280 رمزاً مرناً: 2,520 رقعة لمساحة 645 ألف بكسل (الإعداد الافتراضي)
- 560 رمزاً مرناً: 5,040 رقعة لمساحة 1.3 مليون بكسل تقريباً
- 1,120 رمزاً مرناً: 10,080 رقعة لمساحة 2.6 مليون بكسل تقريباً
NomicBERT يحل مشكلة حقيقية كانت تؤرق المطورين العرب: الحاجة لنموذج تضمين نصي مفتوح المصدر بسياق طويل. النموذج يدعم 8,192 رمزاً ويتفوق على OpenAI Ada-002 وtext-embedding-3-small في معايير MTEB وLoCo للنصوص القصيرة والطويلة. الوثائق الرسمية تشير إلى أنه أول نموذج تضمين نصي قابل للإعادة بالكامل.
Music Flamingo يركز على فهم الموسيقى وتحليلها باستخدام تقنية Rotary Time Embeddings التي تحقن معلومات الموقع الزمني للتعامل مع ملفات صوتية تصل إلى 20 دقيقة. النموذج يستخدم محول صوتي موحد عبر الكلام والأصوات والموسيقى مع رموز حدود صوتية خاصة.
التحديث يحمل تغييرات جوهرية قد تتطلب تعديل الكود الحالي. ذواكر التخزين المؤقت لنماذج Mamba والنماذج المختلطة أصبحت مواطنة من الدرجة الأولى في المكتبة، مما يعني ضرورة استخدام فئات الذاكرة المؤقتة الأصلية الجديدة. كما تم إزالة دعم تشغيل الكود عن بُعد من تكامل LightGlue الأصلي.
أداء فحوصات المستودعات شهد تحسناً دراماتيكياً بتسريع يصل إلى 27 ضعفاً – من 46 ثانية إلى 1.6 ثانية مع الذاكرة المؤقتة الدافئة بفضل نظام تخزين مؤقت على مستوى الملفات و AST.
للمطورين في السعودية والإمارات ومصر، هذا الإصدار يوفر بدائل مفتوحة قوية لحلول OpenAI المكلفة، خاصة في مشاريع معالجة النصوص العربية الطويلة والتطبيقات متعددة الوسائط. الإصدار متاح الآن عبر GitHub مع إصلاحات شاملة لمعالجة الصور والفيديو.




