vLLM v0.24.0 — دعم MiniMax-M3 وDeepSeek-V4 وتسريع 290%

🎧 استمع للملخص

بقلم: سارة | محررة نماذج الذكاء الاصطناعي · صوت تحريري بإشراف بشري

vLLM v0.24.0 خرج بـ 571 commit من 256 مساهماً — 77 منهم جدد — ليُصبح واحداً من أضخم إصدارات المشروع منذ انطلاقه. الإصدار يمسّ كل طبقة في المنظومة: النماذج، والمجدول، والتوزيع، والحوسبة، والـ API، ومما يشير إلى أن vLLM لم يعد مجرد بنية inference بل بات منصة متكاملة للخدمة في بيئات الإنتاج.

أبرز ما جاء به الإصدار يمكن تتبّعه عبر ثماني محاور رئيسية:

دعم MiniMax-M3 من الصفر: أُضيف النموذج الجديد (#45381) مع دعم فوري لـ BF16/FP8 عبر MSA (#45892)، وMXFP4 (#45896)، وFP8 sparse GQA (#45744). على ROCm/AMD، جرى ضبط واسع النطاق يشمل MXFP8 MoE على gfx950 (#45725)، وFP8 per_channel لأوزان BF16 على MI300X (#45854)، وإصلاح FP8 KV-cache (#45720). كذلك صُوِّب تراجع في أداء MiniMax-M2 (#45935).
DeepSeek-V4 يواصل النضج: بعد إطلاقه الأوّلي، تلقّى V4 حزمة تحسينات ضخمة — ذاكرة مؤشر FlashInfer sparse تُخفّض TTFT بنسبة 2–4% (#45863)، وتخطيط prefill chunk يرفع الإنتاجية 4% E2E (#45061)، ونواة cluster-cooperative topK لزمن استجابة منخفض (#43008)، وتخصيصات KV متجاورة per-block (#44577). النموذج بات مفعّلاً الآن على SM120 إلى جانب GLM-5.1 (#43477)، مع مسارات attention/MoE على XPU وROCm. (وفقاً لـ vLLM Release Notes)
Model Runner V2 يتوسّع: MRv2 بات يدعم النماذج المُكمَّمة افتراضياً (#44446)، ويُفعِّل GraniteMoE بالإعداد الافتراضي (#45461)، ويشمل هجرة نماذج Qwen وDeepSeek-V2 MoE (#42667)، فضلاً عن DFlash للـ speculative decoding (#44586) وأكثر دقة في FP32 Gumbel sampling (#45996).
محرك بث موحّد لتحليل الأدوات والتفكير: أُطلق Streaming Parser Engine جديد يوحّد تحليل tool-call واستدلال النماذج عبر محرك واحد. الإصدار يجلب parsers لـ Qwen3 (#45413) وMiniMax-M2 (#45701) وGLM-4.7/5.1/5.2 (#45915) وNemotron V3 (#45755). بالنسبة لـ Gemma 4، جرى توحيد FlashAttention FA4 عبر جميع الطبقات مع إصلاحات عديدة في التحليل والخدمة.
Diffusion LLMs تدخل المنظومة: أُضيف DiffusionGemma (#45163) بما فيه مسار CPU (#45690) وضوابط structured-output لنماذج الانتشار (#45468) — وهو توجّه مختلف كلياً يفتح vLLM أمام نماذج التوليد غير الذّرية.
الـ Rust frontend يكتمل تدريجياً: الواجهة الأمامية المبنية بـ Rust أضافت في هذا الإصدار: مصادقة API-key (#44321)، ودعم CORS (#45753)، ونقاط نهاية /tokenize و/detokenize (#44222)، والإيقاف المؤقت عبر /pause و/resume (#44499)، وإلغاء الطلبات عبر /abort_requests (#44382)، وجسر Python لـ parsers (#44624). الصورة تتضح: الـ Rust frontend يسير نحو استبدال الواجهة Python في بيئات الإنتاج عالية الأداء.
الأجهزة والأداء — تحسينات قياسية: على NVIDIA، حقّقت نواة CUTLASS FP8 الجديدة للـ SM90 تسريعاً بين 180% و290% عبر swap_ab (#44572). fused_moe FP8 المضبوط لـ Qwen3-Next-80B على H100 يُعطي زيادة 25% (#44830). على AMD ROCm، يأتي الإصدار بـ Torch 2.11 (#45362) وdeprecation window لـ CUDA_VISIBLE_DEVICES. Intel XPU يحصل على دعم sequence-parallel (#38608) وtorch-xpu 2.12 (#42262). على CPU، معالجة ASR أسرع بـ 2.5× عبر multi-threading (#44612). (وفقاً لـ vLLM Release Notes)
تغيير جوهري في إدارة الأجهزة: vLLM لم يعد يضبط CUDA_VISIBLE_DEVICES داخلياً؛ بدلاً من ذلك يُقدَّم device_ids كمعامل صريح (#45026). على ROCm بدأت نافذة الإهلاك deprecation لنفس المتغيّر (#46636). هذا التغيير يؤثر على أي منظومة نشر حالية تعتمد على ضبط هذا المتغيّر يدوياً — راجع إعداداتك قبل الترقية.

على صعيد الخدمة الموزّعة، يجلب الإصدار تكاملاً كاملاً مع DeepEP v2 للـ expert parallelism (#41183) مع إصلاحات متابعة للمتانة (#46404، #46432)، إضافةً إلى WideEP/NIXL EP مع دعم DBO وelastic-EP communicator (#45013). على صعيد نقل KV، يُتيح الإصدار دعم push من prefill إلى decode عبر NIXL (#35264)، وتصنيفاً per-region لنقل KV في المجموعات المختلطة (#44583). Mooncake يحصل على دعم pipeline-parallel PD وasync lookup (#45659) وzero-copy chunk-hash lookup (#45969).

في جانب الكم والـ quantization، أُضيف FP8 PTPC (per-token-per-channel) عبر الإنترنت (#44132)، ومدعوم الآن على Ampere/SM80-86 (#45306) وTuring/SM75 (#45375). GGUF انتقل إلى plugin (#39612)، وجرى إصلاح مهم لإخراج فاسد في MoE FP8 مع LoRAs محمّلة (#42120). على الـ API، أُضيف strict mode لاستدعاء الأدوات في Chat Completions وResponses API، كما صار /v1/embeddings يدعم messages فعلياً (#45173) مع احتساب multimodal tokens في usage.prompt_tokens_details (#45458). Anthropic Messages API تحصل على إبلاغ باستخدام الكاش (#40912) ومعالجة system-message منتصف المحادثة (#46025).

الإصدار يُكمل أيضاً هجرة kernels إلى libtorch stable ABI (المراحل 10 إلى 12/n)، شاملةً MoE وMarlin وMachete ومكتبة _C النهائية. RISC-V يحصل على دعم oneDNN W8A8 INT8 (#44478) وRVV micro-GEMM (#44324). TPU يُرقَّى إلى v0.22.1. باختصار تقني: هذا أوسع إصدار تنسيقياً في تاريخ المشروع، ويُشير إلى أن فريق vLLM يعمل على توحيد الأرضية التقنية قبل توسّعات أكبر قادمة.

vLLM GitHub Releases