vLLM v0.20.2 إصلاحات عاجلة DeepSeek V4 وQwen3-VL

🎧 استمع للملخص

بقلم: سارة | محررة نماذج الذكاء الاصطناعي · صوت تحريري بإشراف بشري

واجهت النماذج المتقدمة مثل DeepSeek V4 وQwen3-VL مشاكل تقنية حرجة أجبرت فريق vLLM على إطلاق الإصدار v0.20.2 كحل عاجل. التحديث يعالج أربع مشاكل أساسية تعطل سير العمل في بيئات الإنتاج، مع مساهمات من 6 مطورين خلال 381 commit منذ الإصدار السابق (وفقاً لـ GitHub vLLM).

DeepSeek V4 sparse attention: إعادة تفعيل مسار persistent topk على معالجات Hopper وضمان تشغيل memset kernel أثناء CUDA graph capture، مما يحل مشكلة التعليق عند MTP=1 التي كانت تشل النظام كلياً.
DeepSeek V4 KV cache: إصلاح خطأ “failure to allocate KV blocks” في مدير V1 engine KV cache الذي كان يمنع تخصيص الذاكرة للسلاسل الطويلة.
gpt-oss MXFP4 + torch.compile: تمرير hidden_dim_unpadded عبر moe_forward fake operation لضمان عمل MXFP4 تحت torch.compile في v0.20.x، وهو backport من الإصلاح #41646.
Qwen3-VL boundary check: إزالة فحص deepstack boundary المعطل الذي كان يفشل تحت الأحمال المرتفعة ويقطع معالجة الطلبات.

هذه الإصلاحات تستهدف مشاكل واجهتها الشركات التي تعتمد على vLLM في الإنتاج، خاصة تلك التي تستخدم DeepSeek V4 للمهام المعقدة أو Qwen3-VL لمعالجة المحتوى المرئي. المشكلة الأساسية كانت أن هذه الأخطاء لا تظهر في البيئات التطويرية الصغيرة، بل فقط عند الحمولات الحقيقية مع سلاسل طويلة ومعالجة مكثفة.

ما لم يذكره الفريق هو الجدول الزمني لإصلاح المشاكل المماثلة في النماذج الأخرى، أو ما إذا كانت هناك خطة لاختبار أكثر شمولية قبل الإصدارات القادمة لتجنب هذه التعطيلات المفاجئة.

GitHub vLLM Project