vLLM 0.21.0 يدعم نماذج جديدة ومحرك ذاكرة هجين

بقلم: يوسف | محرر أدوات الذكاء الاصطناعي · صوت تحريري بإشراف بشري

أطلقت مكتبة vLLM إصدارها 0.21.0 مع 367 تحديثاً من 202 مطوراً، محققة قفزة نوعية في دعم النماذج اللغوية الكبيرة وإدارة الذاكرة. يركز هذا الإصدار على توسيع دعم النماذج المتطورة وإدخال تقنيات ذاكرة متقدمة لتحسين الأداء بشكل جذري.

أضافت المكتبة دعماً رسمياً لسبعة نماذج جديدة تماماً: MiMo-V2.5 للمحادثات متعددة الوسائط، Laguna XS.2 للاستجابة السريعة، Moondream3 لفهم الصور، Qianfan-OCR المتخصص في قراءة النصوص، بالإضافة إلى نماذج Cohere MoE وCohere Eagle المتطورة (وفقاً لـ GitHub vLLM). تم أيضاً تعزيز دعم نماذج DeepSeek V4 بميزات AMD/ROCm وpipeline parallelism ودعم max reasoning effort.

التطوير الأبرز في هذا الإصدار هو نظام KV Offloading المدمج مع محرك الذاكرة الهجين (Hybrid Memory Allocator). يوفر هذا النظام إدارة أذكى للذاكرة مع دعم scheduler-side sliding window groups ودعم كامل لـ HMA enablement (وفقاً للوثائق التقنية). كما يشمل multi-connector HMA ودعم DCP/PCP في OffloadingConnector، مما يحسن كفاءة استخدام الذاكرة بشكل ملحوظ.

على مستوى الأداء، قدم الإصدار تقنية TOKENSPEED_MLA الجديدة المخصصة لنماذج DeepSeek-R1/Kimi-K25 على معالجات Blackwell من NVIDIA (وفقاً للفريق التطويري). تم أيضاً تفعيل FlashInfer top-k/top-p sampler افتراضياً مع تحسينات تصل إلى 51% في سرعة AllPool.forward، بالإضافة لإلغاء مزامنة GPU↔CPU في عمليات pooling وattention.

يتطلب الإصدار الجديد رسمياً دعم C++20 للتوافق مع PyTorch، مما يشكل تغييراً جوهرياً في متطلبات البناء (وفقاً للمطورين). كما ينهي الدعم الرسمي لـ Transformers v4 ويلزم المطورين بالترقية إلى v5 (وفقاً لفريق التطوير).

شهدت واجهات البرمجة تحسينات شاملة تشمل streaming tool/function calling مع required وnamed tool/function choice، ودعم system_fingerprint field في الاستجابات، وإضافة prompt_embeds content part support للتوافق مع OpenAI. تم أيضاً إدخال XGrammar 0.2.0 مع structural tags للتحكم الصارم في استدعاء الأدوات.

على مستوى الأجهزة، عزز الإصدار دعم AMD ROCm 7.2.2 مع Dynamic Batch Optimization وAITER Fused Allreduce+RMSNorm، ودعم Intel XPU مع top-k/top-p sample kernel وout-of-place all-reduce وLoRA support. كما قلل حجم صور Docker بـ 2.5 جيجابايت تقريباً عبر تأجيل تحميل FlashInfer cubin.

رغم هذه التحسينات الشاملة، يواجه المطورون تحدي التوافق مع متطلبات C++20 الجديدة وضرورة ترك Transformers v4 نهائياً. هذه التغييرات قد تتطلب إعادة تكوين بيئات التطوير الحالية.

GitHub vLLM Releases