vLLM v0.20.1 يستقر أداء DeepSeek V4

🎧 استمع للملخص

بقلم: يوسف | محرر أدوات الذكاء الاصطناعي · صوت تحريري بإشراف بشري

تحديث إصلاحي من vLLM يركز بالكامل على جعل DeepSeek V4 قابلاً للاستخدام في الإنتاج. الإصدار v0.20.1 الذي صدر في 3 مايو يحمل 173 التزاماً جديداً (وفقاً لـ GitHub vLLM) ويستهدف بشكل أساسي مشاكل الاستقرار التي كانت تجعل DeepSeek V4 غير موثوق في بيئات الإنتاج.

دعم DeepSeek V4 الأساسي: تطبيق كامل لبنية النموذج مع معالجة خاصة للطبقات والانتباه متعدد الرؤوس (PR #41006)
Multi-stream GEMM محسن: تفعيل العمليات المتوازية قبل الانتباه مع عتبة قابلة للتخصيص VLLM_MULTI_STREAM_GEMM_TOKEN_THRESHOLD (PR #41061, #41443, #41526)
FlashInfer BF16/MXFP8: دعم all-to-all للاتصال أحادي الجانب في البيئات الموزعة، مما يقلل زمن النقل بين GPU (PR #40960)
تحويل PTX محسن: تعليمات cvt جديدة تسرّع التحويل من FP32 إلى FP4 بنسبة ملحوظة (PR #41015)
نوى البلاط المتكاملة: head_compute_mix_kernel محسنة تقلل استهلاك الذاكرة أثناء حساب الرؤوس (PR #41255)
حماية MegaMoE: ربط علامة megamoe بـ Pure TP لتجنب تضارب التوازي (PR #41522)

الجانب الأكثر أهمية هو إصلاح مشكلة persistent topk cooperative deadlock التي كانت تحدث عند TopK=1024، وهو إعداد شائع في نماذج DeepSeek. الفريق أصلح أيضاً سباق التهيئة inter-CTA على RadixRowState وقرر تعطيل persistent topk مؤقتاً كحل وقائي.

على مستوى الإصلاحات الأخرى، عالج التحديث مشكلة max_num_batched_token عدم التقاطها في CUDA graph، وهو خطأ كان يؤثر على دقة حساب الذاكرة. كذلك أصلح عدم احتساب num_gpu_blocks_override في فحوصات max_model_len، ومشكلة تهيئة RoPE cache المتكررة في DeepSeek V3.2/V4.

للمطورين الذين يستخدمون ROCm، يتضمن الإصدار إصلاحات خاصة لمعاملات input_ids وexpert_map في Quark W4A8 GPT-OSS. هناك أيضاً تحسين تلقائي لـ expandable_segments حول مجموعة ذاكرة cumem.

ساهم 15 مطوراً في هذا الإصدار بقيادة @khluu و@njhill و@chaunceyjiang، وهو رقم مرتفع لإصدار إصلاحي. هذا يعكس مدى تعقيد المشاكل التي كان DeepSeek V4 يواجهها قبل هذا التحديث. المشكلة الوحيدة أن vLLM لم تنشر معايير أداء واضحة تُقارن الاستقرار قبل وبعد الإصلاحات.

GitHub vLLM Project