vLLM 0.19.1 يحل مشاكل Gemma 4 مع Transformers 5.5.4

🎧 استمع للملخص

بقلم: يوسف | محرر أدوات الذكاء الاصطناعي · صوت تحريري بإشراف بشري

أطلق مشروع vLLM الإصدار 0.19.1 كتحديث إصلاحي شامل للنسخة 0.19.0، يركز بشكل أساسي على حل المشاكل الحرجة في نموذج Gemma 4 مع ترقية مكتبة Transformers إلى الإصدار 5.5.4. يأتي هذا التحديث بعد 545 commit منذ الإصدار السابق ويستهدف تحسين الاستقرار والأداء للمطورين العاملين مع نماذج اللغة الكبيرة.

ترقية مكتبة Transformers 5.5.4: يدمج التحديث أحدث إصدار من مكتبة Transformers مع تحسينات الأمان والأداء، مما يوفر دعماً أفضل للنماذج الحديثة والمزيد من الاستقرار في عمليات الاستنتاج.
إصلاح مشاكل JSON في استدعاءات الأدوات: يحل التحديث مشكلة حرجة في Gemma 4 كانت تؤدي إلى إنتاج JSON غير صالح أثناء البث المباشر لاستدعاءات الأدوات، مع إزالة المحددات الجزئية التي تفسد البيانات.
منع تكرار HTML في الواجهة الأمامية: يعالج مشكلة كانت تسبب تكرار محتوى HTML بعد استدعاءات الأدوات في واجهة المستخدم، مما يحسن من تجربة المطور عند العمل مع التطبيقات التفاعلية.
إصلاح تلف البيانات في القيم المنطقية والرقمية: يحل مشكلة خطيرة كانت تؤدي إلى تلف استدعاءات الأدوات عند تقسيم القيم المنطقية والرقمية أثناء البث المباشر، مما يضمن سلامة البيانات المرسلة.
دعم نماذج MoE المضغوطة: يضيف دعماً كاملاً لنماذج Mixture of Experts المضغوطة في Gemma 4، مما يتيح للمطورين استخدام نماذج أكثر كفاءة من ناحية الذاكرة دون التضحية بالأداء.
تحسين تحميل محولات LoRA: يمكّن Gemma4ForCasualLM من تحميل محولات LoRA بشكل صحيح، مما يفتح المجال أمام تخصيص أفضل للنماذج حسب احتياجات التطبيق المحددة.

التحديث يتضمن أيضاً إصلاحات لمشاكل تكرار الرموز المميزة من خلال حقن BOS ديناميكي للنماذج المدربة مسبقاً، بالإضافة إلى دعم Eagle3 لـ Gemma 4. هذه الإصلاحات الشاملة تجعل vLLM 0.19.1 تحديثاً ضرورياً لأي مطور يواجه مشاكل استقرار مع Gemma 4، خاصة في بيئات الإنتاج التي تتطلب موثوقية عالية في معالجة البيانات واستدعاءات الأدوات.

GitHub vLLM Project