تُحدَّث يومياً

مصدرُك العربي
لمستقبل الذكاء الاصطناعي

أخبار، تقارير، أدوات وتحليلات يومية — كل ما تحتاجه لمتابعة ثورة الذكاء الاصطناعي باللغة العربية

✅ تم الاشتراك!
اختيار المحررينتعلم و استخدام الذكاء الاصطناعي

vLLM 0.23.0 يطلق 408 تحديثات من 200 مطور بدعم DeepSeek-V4 محسن

🎧 استمع للملخص

بقلم: يوسف | محرر أدوات الذكاء الاصطناعي · صوت تحريري بإشراف بشري

تحديث vLLM 0.23.0 وصل بقوة غير مسبوقة، حاملاً معه 408 تحديثات من 200 مطور مساهم، منهم 63 مطوراً ينضمون للمشروع للمرة الأولى.

DeepSeek-V4 حصل على موجة تحسينات شاملة بعد ظهوره الأول في v0.22.0. البيانات المتناثرة للـ MLA أصبحت منفصلة عن DeepSeek-V3.2 (#44699)، مع إضافة نواة انتباه TRTLLM-gen (#43827) ودعم EPLB للـ Mega-MoE (#43339). الاحتفاظ الانتقائي بالبادئات لذاكرة النوافذ المنزلقة (#43447) وميزة index-share لـ DSA MTP أضيفت أيضاً.

Model Runner V2 توسع ليصبح الخيار الافتراضي لنماذج Llama وMistral الكثيفة إضافة إلى Qwen3. FlashInfer sampler وCUDA graphs القابلة للكسر ونظام إلغاء فقاعات pipeline-parallel أضيفت للتحسين، مع دعم kernel block-size للنماذج الهجينة ودعم Gemma 4 MTP.

واجهة Rust التجريبية نضجت بشكل لافت، مكتسبة نقطة نهاية streaming generate ونقاط LoRA الديناميكية ونقاط /version و/server_info. محللات أدوات جديدة لـ InternLM2 وhy_v3 وPhi-4-mini وGemma4 انضمت للمجموعة.

Gemma 4 دخل رسمياً مع دعم Unified بدون encoder وGemma 4 MTP، بالإضافة لطبقات ViT خطية أصلية وإصلاحات متعددة لدقة MTP تحت TP>1 ومشاكل block-table تحت التشغيل المتزامن.

7 نماذج جديدة انضمت للعائلة: MiMo-V2.5 وStep-3.7-Flash وCosmos3 Reasoner وGemma 4 Unified وJetBrains Mellum v2 وGranite Speech Plus وCohere Mini Code.

على صعيد الأداء، تحسينات NVIDIA جلبت FP8 FlashInfer attention لـ ViT ومنصة Triton MoE افتراضياً على Hopper. CUTLASS FP8 scaled-mm حصل على تحسين بنسبة +20% مع تجاوز padding، بينما MoE-permute حقق زيادة +9–14% مع تخصيص المخازن المسبق.

AMD ROCm 7.2.3 وصل مع AITER v0.1.13.post1 ونوى W4A16 أصلية وfused-MoE W4A16 HIP لـ RDNA3 (gfx1100). Intel XPU حصل على vllm-xpu-kernel v0.1.7 مع block_fp8_moe ومسار W8A8 FP8 محسن.

نظام KV cache متعدد الطبقات أضيف طبقة ثانوية لتخزين الكائنات، مع تمكين HMA افتراضياً للموصلات القادرة ودعم الطبقات للنماذج HMA. سياسة التفريغ لكل طلب عبر hook lifecycle الجديد on_new_request أصبحت متاحة أيضاً.

التوافق مع Transformers v5 بدأ رسمياً مع إهمال دعم v4، وتضمين معالجات MiniCPM-V/O مدمجة وإصلاحات توافق لـ Sarvam وVoxtral.

القيد الوحيد المذكور: Minimax M3 غير مدعوم بعد في هذه النسخة، لكن الفريق وجه المطورين لـ دليل vLLM recipe للاستخدام.

GitHub vLLM Project

مقالات ذات صلة

زر الذهاب إلى الأعلى