vLLM v0.22.1 يضيف نموذج JetBrains وتسريع AMD

🎧 استمع للملخص

بقلم: يوسف | محرر أدوات الذكاء الاصطناعي · صوت تحريري بإشراف بشري

أطلق فريق vLLM الإصدار v0.22.1 كتحديث إصلاحي مركز على v0.22.0، يضم 8 التزامات من 6 مطورين مع إضافات مهمة وإصلاحات استهدفت مشاكل حرجة في النماذج الكبيرة والخوادم متعددة العقد.

يجلب هذا الإصدار دعماً لنموذج جديد من JetBrains مخصص لتوليد الكود، بجانب تحسينات أداء كبيرة لمعالجات AMD وحلول لمشاكل تعطلت النماذج الشائعة مثل DeepSeek-V4. التطوير يعكس التزام المشروع بتوسيع نطاق النماذج المدعومة وتحسين الاستقرار عبر بيئات النشر المختلفة.

دعم نموذج JetBrains Mellum v2: إضافة نموذج Mixture-of-Experts مفتوح الأوزان متخصص في توليد الكود البرمجي من JetBrains، مما يوسع خيارات المطورين للأدوات الذكية المساعدة في البرمجة.
تسريع zentorch لمعالجات AMD Zen: توجيه استدلال W8A8 وW4A16 عبر نوى zentorch المحسنة مع انتقال شفاف لمعالجات غير Zen وكروت الجرافيك، مما يحسن الأداء بشكل كبير على أنظمة AMD.
إصلاح DeepSeek-V4: حل مشكلة توافق CUTLASS fmin التي منعت تهيئة النموذج بشكل صحيح، مما يعيد استقرار هذا النموذج المهم للمطورين العرب.
معالجة تعطل Ray متعدد العقد: إصلاح تعطل حتمي في خدمة البيانات المتوازية مع num_api_servers > 1 عبر استبعاد Ray DP من تخصيص المنافذ المؤجل.
إصلاحات نماذج أخرى: حل مشاكل تحميل OlmoHybridForCausalLM وHyperCLOVAX بعد تغييرات في مستودعات HuggingFace الأصلية.
تحسينات Docker وCI: إيقاف تثبيت flashinfer-jit-cache وتطبيع تثبيت NIXL KV-connector لحل مشاكل ImportError في بيئات CUDA 13.

هذا التحديث يؤكد أهمية vLLM كمنصة استدلال موحدة تدعم مجموعة واسعة من النماذج والأجهزة. إضافة دعم JetBrains Mellum v2 خاصة مهمة للمطورين الذين يستخدمون أدوات JetBrains في بيئات العمل، بينما تحسينات AMD تفتح خيارات أجهزة أكثر فعالية من حيث التكلفة.

المشروع يحافظ على وتيرة تطوير سريعة مع إصلاحات استباقية للمشاكل الحرجة، مما يجعله خياراً موثوقاً لنشر النماذج الكبيرة في بيئات الإنتاج المتطلبة.

GitHub vLLM Project