llama.cpp b9458 يحل مشاكل المعالجة المتوازية

🎧 استمع للملخص

بقلم: يوسف | محرر أدوات الذكاء الاصطناعي · صوت تحريري بإشراف بشري

طرح مطورو llama.cpp الإصدار b9458 بإصلاح تقني مهم يحل مشكلة توقف المعالجة المتوازية في Vulkan، مع إتاحة التحديث عبر 15 منصة تشغيل من macOS إلى Windows وAndroid.

المشكلة الأساسية كانت في آلية قفل الجهاز (device mutex) التي تحتجز الموارد أثناء تجميع خطوط الأنابيب، مما يمنع الخيوط الأخرى من المتابعة. الإصلاح الجديد يفصل بين قفل التصفح وقفل التجميع، فالنظام الآن يحتجز القفل فقط أثناء تصفح خطوط الأنابيب وتهيئتها، لكن يحررها أثناء عملية التجميع الفعلية.

هذا التغيير يعني أن تطبيقك يمكن أن يجمّع خطوط أنابيب متعددة بالتوازي دون أن تتوقف العمليات الأخرى، وهو تحسين حاسم للمطورين الذين يشغلون نماذج متعددة أو يعالجون طلبات متوازية.

macOS: إصداران للـ Apple Silicon (arm64) والـ Intel (x64)، بالإضافة إلى حزمة iOS XCFramework للتطبيقات المحمولة
Linux Ubuntu: ستة إصدارات تشمل x64 وarm64 وs390x للمعالج فقط، مع نسخ Vulkan وROCm 7.2 وOpenVINO 2026.0
Windows: خمسة إصدارات للمعمارية x64 وarm64، مع دعم CUDA 12.4 وCUDA 13.3 وVulkan وHIP
Android: إصدار واحد للمعمارية arm64
واجهة مستخدم: حزمة UI منفصلة للتشغيل المحلي

عدة إصدارات معطلة مؤقتاً بسبب مشكلة تقنية: KleidiAI لـ macOS، وSYCL لـ Ubuntu وWindows، وجميع إصدارات openEuler للمعالجات الصينية 310p و910b. السبب وراء هذا التعطيل لم يُوضح في ملاحظات الإصدار.

الإصلاح يستهدف بشكل خاص المطورين الذين واجهوا بطء في الاستجابة أو توقف كامل عند تحميل نماذج جديدة أثناء وجود عمليات أخرى قيد التشغيل. المشكلة كانت أكثر وضوحاً في البيئات السحابية التي تخدم طلبات متعددة في نفس الوقت.

GitHub llama.cpp