vLLM 0.22 دعم DeepSeek V4 متقدم ومحرك Rust جديد

🎧 استمع للملخص

بقلم: سارة | محررة نماذج الذكاء الاصطناعي · صوت تحريري بإشراف بشري

طرح مشروع vLLM الإصدار 0.22.0 في 29 مايو، محققاً قفزة تطويرية ضخمة بمساهمات 459 عملية commit من 230 مطوراً، منهم 63 مطور ينضم للمرة الأولى. يركز هذا التحديث على ترسيخ دعم نموذج DeepSeek V4 كمنصة إنتاجية مستقرة، وتقديم محرك استدلال تجريبي مكتوب بلغة Rust.

شهد DeepSeek V4 إعادة هيكلة جذرية عبر نقل كامل الكود إلى حزمة منفصلة `vllm/models/deepseek_v4/` مع عمليات تقوية شاملة. اكتسب النموذج دعم NVFP4 fused MoE الذي يحسن معالجة Mixture of Experts، و CUDA graph كاملة ومتدرجة لتسريع العمليات، والاستدلال التخميني MTP لتحسين الإنتاجية. رافق ذلك مجموعة واسعة من النوى المدمجة الجديدة شملت MegaMoE و mhc و Q-norm و indexer و sparse MLA، إلى جانب إصلاحات دقة شاملة وتحقيق تكافؤ AMD ROCm.

على الجانب المعماري، تقدم Model Runner V2 نحو أن يصبح الخيار الافتراضي عبر إضافة oracle يختار MRv2 تلقائياً لنماذج Qwen3 الكثيفة، ونظام إعادة تحميل الأوزان في وضع السكون، ودعم طبقات KV-cache المشتركة. النظام يتراجع تلقائياً لـ MRv1 عند وجود KV connector.

شعار مشروع vLLM مع النص — مشروع vLLM يواصل تطوير منصة الاستدلال المفتوحة المصدر

المحرك التجريبي المكتوب بـ Rust يمثل خطوة طموحة نحو تحسين الأداء والموثوقية. تم دمج التكامل الأولي مع نقل التطبيق داخل شجرة المشروع، وإضافة DP Supervisor للخدمة المتوازية للبيانات. هذا التطوير يستهدف البيئات الإنتاجية التي تتطلب استقراراً عالياً وأداء محسن.

حقق الاستدلال batch-invariant قفزات أداء ملحوظة بدعم Cutlass FP8 الذي يحسن زمن الاستجابة النهائي بنسبة 28.9%، ودعم compile-mode على معالجات SM80، ومسار NVFP4 Cutlass linear جديد. تضمنت تحسينات الأداء الأخرى preprocessing CutlassFP8 المحسن الذي يرفع TTFT بنسبة 13.5%، ونوى NVFP4 المحسنة التي تحسن الأداء النهائي بنسبة 2.4-5.7%.

إطار العمل الجديد لنقل KV cache متعدد الطبقات يوسع إمكانيات التخزين المؤقت خارج ذاكرة CPU. يشمل النظام طبقة ثانوية لنظام ملفات Python، ودعم DeepSeek V4، ونظام Mooncake لتخزين القرص، مما يتيح معالجة نماذج أكبر بكفاءة محسنة.

توسع الدعم المعماري ليشمل MiniCPM-V 4.6 و InternS2 Preview و OpenVLA و MolmoWeb و EXAONE-4.5. في الاستدلال التخميني، أضيف دعم custom callable proposer backend و post-norm EAGLE-3 speculators و peagle speculators، بالإضافة لدعم hybrid-attention models في extract_hidden_states.

شمل التطوير تحسينات أجهزة واسعة عبر NVIDIA Blackwell SM12x مع FlashInfer b12x MoE و FP4 GEMM، و AMD ROCm مع flash sparse MLA Triton kernels و gluon paged MQA logits، و Intel XPU مع دعم GPTQ int4 و mxfp8 MoE، و CPU/RISC-V مع نوى attention محسنة لـ RISC-V Vector Extension بـ VLEN=256.

في مجال التكميم، اكتسب MXFP4 دعم الطبقات الخطية مع تكامل compressed-tensors، و CPU W4A16 MoE، و XPU mxfp8 MoE. توسع NVFP4 ليشمل DeepSeek V4 fused MoE، و ModelOpt W4A16 NVFP4 fused MoE مع mixed-precision dispatch، و batch-invariant NVFP4 Cutlass linear.

يتضمن الإصدار الجديد تحديثات شاملة لواجهات البرمجة شملت دعم chat_template_kwargs في Responses API، و thinking_token_budget في Completions، وتحسينات Auth مع تفويض API-key لنقاط نهاية /v2. نظام البناء انتقل لعجلات CUDA 12.9 مع قاعدة PyTorch manylinux_2_28، وتحديث FlashInfer لإصدار v0.6.11.post2.

GitHub vLLM Project