vLLM 0.20.0 بـ 752 تحديث وCUDA 13.0 و8 نماذج جديدة

🎧 استمع للملخص

بقلم: يوسف | محرر أدوات الذكاء الاصطناعي · صوت تحريري بإشراف بشري

فريق vLLM أطلق الإصدار 0.20.0 كأضخم تحديث في تاريخ المكتبة، حاملاً 752 التزاماً تطويرياً من 320 مساهماً منهم 123 مطور جديد. التحديث يعيد هندسة أساسيات المنصة مع انتقال جذري لـ CUDA 13.0 كافتراضي وترقية شاملة لـ PyTorch 2.11.

القرار الأهم هو جعل CUDA 13.0 الافتراضي الجديد للعجلات على PyPI وصور Docker الرسمية. سياسة vLLM الجديدة تتبع PyTorch مباشرة – عندما ترتقي PyTorch لإصدار CUDA معين، تحذو vLLM حذوها فوراً. للمطورين على CUDA 12.9، الحل الموصى به هو تثبيت vLLM باستخدام uv مع العلامة –torch-backend=cu129 لتجنب تعارضات التبعيات.

Python 3.14 دخل قائمة الإصدارات المدعومة رسمياً، ما يجعل vLLM من أول المكتبات الرئيسية التي تستفيد من تحسينات الأداء الجديدة. HuggingFace Transformers v5 أصبح مدعوماً بالكامل مع الحفاظ على التوافق مع v4، وشمل ذلك إصلاحات لـ vision-encoder torch.compile وmعالج الصور PaddleOCR-VL max_pixels.

ثمانية نماذج ذكاء اصطناعي جديدة انضمت للمكتبة: DeepSeek V4 بدعم أولي مع إصلاحات لتسرب الرموز، Hunyuan v3 في نسخة معاينة مع محلل reasoning متخصص، Granite 4.1 Vision كنموذج متعدد الوسائط مدمج، EXAONE-4.5، BharatGen Param2MoE، Phi-4-reasoning-vision-15B، Cheers multimodal، وtelechat3.

FlashAttention 4 عاد كخلفية MLA افتراضية للتحضير المسبق مع دعم head-dim 512 وpaged-KV على معالجات SM90+. TurboQuant تقدم تقنية ضغط KV cache ثورية بـ 2-bit توفر سعة 4 أضعاف مع دعم FA3/FA4 للتحضير المسبق – خطوة كبيرة نحو تشغيل نماذج أكبر بذاكرة أقل.

واجهة التكميم الأونلاين الجديدة تجمع كل عمليات التكميم تحت سقف واحد. experts_int8 دُمج في مسار FP8 الأونلاين، وMXFP8 انتقل للواجهة الجديدة، ما يبسط سير العمل للمطورين الذين يحتاجون تحسين استهلاك الذاكرة.

vLLM IR (Intermediate Representation) بدأ كهيكل أولي مع عملية rms_norm وخطافات استيراد النواة للمنصات الخارجية. هذا الأساس سيدعم عمل النواة المستقبلي وتحسينات الأداء المتقدمة.

Model Runner V2 حصل على تحسينات جوهرية: CUDA graph كاملة لـ Eagle prefill، حل تلقائي لأوضاع cudagraph والأحجام من خلفية الانتباه، نواة rejection sampling احتمالية مدمجة، وتحقق من التكوين للميزات غير المدعومة.

سلسلة إعادة هيكلة MoE شملت نقل النماذج غير المكممة لـ Full Oracle Flow، وCT W8A8 لـ Oracle، وإنشاء فئة SharedExperts، وإزالة SharedFusedMoE، ودمج DefaultMoERunner في MoERunnerBase. هذه التغييرات تحسن صيانة الكود وتفتح المجال لتحسينات مستقبلية.

الأداء شهد تحسناً ملحوظاً مع تحسين batch invariant باستخدام fused rms norm، محققاً تحسناً 2.1% في زمن الاستجابة الشامل. تجنب مزامنة seq_lens_cpu بين GPU والCPU، وتخزين InductorPass.hash_source مؤقتاً، وتجاوز إلغاء تسلسل FX-graph عند التحميل للإحماء السريع – كلها خطوات تراكمية نحو أداء أفضل.

دعم الأجهزة توسع بشكل كبير. NVIDIA حصلت على دعم swapAB لـ SM120 CUTLASS blockwise FP8 GEMM وMXFP4 W4A4 CUTLASS MoE لـ SM100. AMD ROCm أضاف backend ZenCPU عبر zentorch وdevice IDs جديدة لـ RDNA 3.5/4. Intel XPU لم يعد مقيداً بـ PyTorch 2.10 ويدعم الآن torch 2.11 مع attention GDN أولي لـ Qwen3-Next.

ما لم يوضحه الإعلان هو تأثير انتقال CUDA 13.0 على استهلاك الذاكرة في البيئات المحدودة الموارد. المطورون على GPUs قديمة قد يواجهون تحديات توافق، والنماذج الجديدة تحتاج اختبارات أداء شاملة قبل النشر في بيئات الإنتاج.

GitHub vLLM Releases