تُحدَّث يومياً

مصدرُك العربي
لمستقبل الذكاء الاصطناعي

أخبار، تقارير، أدوات وتحليلات يومية — كل ما تحتاجه لمتابعة ثورة الذكاء الاصطناعي باللغة العربية

✅ تم الاشتراك!
اختيار المحررينتعلم و استخدام الذكاء الاصطناعي

vLLM 0.19.0: دعم Gemma 4 وثورة في الجدولة غير المتزامنة

🎧 استمع للملخص

مشروع vLLM يخطو خطوة جبارة مع إطلاق الإصدار 0.19.0 الذي يضم 448 commit من 197 مطور (54 منهم جدد)، محدثاً جذرياً طريقة تشغيل النماذج المفتوحة مع تركيز خاص على دعم Google Gemma 4 بكامل قدراته.

دعم Google Gemma 4 الشامل يشمل معمارية MoE والقدرات متعددة الوسائط والاستدلال واستخدام الأدوات، مع متطلب `transformers>=5.5.0`. الفريق ينصح باستخدام Docker image الجاهز `vllm/vllm-openai:gemma4` للحصول على أفضل تجربة فورية.

ثورة حقيقية تحدث في Zero-bubble async scheduling الذي يدعم الآن speculative decoding مع تداخل zero-bubble، محسناً throughput بشكل جذري. هذا التطوير يعالج واحداً من أكبر عقد الأداء في تشغيل النماذج الكبيرة.

Model Runner V2 ينضج أخيراً مع دعم piecewise CUDA graphs للمعالجة المتوازية، و spec decode rejection sampler مع دعم greedy/logprobs، والتضمينات متعددة الوسائط للـ spec decode، والمدخلات المتدفقة، ودعم EPLB. هذه التطويرات تضع MRV2 كخيار إنتاجي قوي.

ViT Full CUDA Graphs تمثل قفزة في كفاءة معالجة الصور، حيث محولات الرؤية تدعم الآن full CUDA graph capture لتقليل الأعباء التشغيلية. للتطبيقات التي تعالج الصور والفيديو، هذا يعني سرعة أكبر واستهلاك ذاكرة أقل.

آلية CPU KV cache offloading الجديدة بسيطة وعامة، تعمل مع V1 وتوفر سياسة cache قابلة للتخصيص مع معالجة block-level preemption. هذا يحل مشكلة الذاكرة المحدودة في GPU عبر نقل أجزاء من البيانات إلى CPU بذكاء.

تحسين DBO (Dual-Batch Overlap) تم تعميمه ليعمل مع جميع النماذج وليس فقط معماريات محددة. الـ microbatch optimization يصبح الآن متاحاً لطيف أوسع من التطبيقات.

دعم NVIDIA B300/GB300 (SM 10.3) يأتي مع تفعيل allreduce fusion افتراضياً و all-reduce communicator محسّن. للمؤسسات التي تستثمر في أحدث معالجات NVIDIA، هذا يعني استغلالاً أمثل للعتاد.

المعماريات الجديدة تشمل Gemma 4، Cohere ASR، Cohere Transcribe، ColQwen3.5 4.5B، LFM2-ColBERT-350M، Granite 4.0 1B Speech، و Qwen3-ForcedAligner. كل معمارية تجلب قدرات متخصصة للمطورين.

على صعيد الأداء، الإصدار يحقق تحسن 9.9% E2E لنماذج Qwen3.5 على H200، و 48.9% تحسن في throughput لـ pooling models على CPU. دعم ROCm 7.2.1 مع torch 2.10 و triton 3.6 يجلب تحسينات AMD مهمة.

للمطورين في السعودية والإمارات ومصر الذين يبنون تطبيقات ذكاء اصطناعي، هذا الإصدار يفتح إمكانيات جديدة لتشغيل نماذج متطورة محلياً بكفاءة عالية، خاصة مع دعم Gemma 4 الذي يتفوق في المهام المعقدة مثل الاستدلال والتحليل.

الجانب الذي لم يُذكر بوضوح هو مستوى استقرار هذه الميزات الجديدة في بيئات الإنتاج الثقيلة، خاصة Zero-bubble scheduling الذي قد يحتاج اختباراً مكثفاً قبل الاعتماد عليه في تطبيقات حرجة.

مقالات ذات صلة

زر الذهاب إلى الأعلى