llama.cpp إصدار b9113 دعم Q4_1 MoE معالجات Adreno

بقلم: يوسف | محرر أدوات الذكاء الاصطناعي · صوت تحريري بإشراف بشري

يحصل مطورو تطبيقات الذكاء الاصطناعي على الهواتف الذكية على تحسين كبير مع إطلاق الإصدار b9113 من llama.cpp الذي يضيف دعماً أصلياً لتقنية Q4_1 MoE (Mixture of Experts) على معالجات Qualcomm Adreno.

التطوير الجديد نتج عن تعاون مباشر مع Li He من Qualcomm لإنشاء طبقة OpenCL محسنة خصيصاً لمعالجات Adreno، والتي تدعم الآن أشكالاً محددة من نماذج Q4_1 MoE (وفقاً لـ GitHub ggml-org). هذا يعني تشغيلاً أسرع وأكثر كفاءة لنماذج Llama الكبيرة على هواتف Android المزودة بمعالجات Snapdragon.

يتيح الإصدار الجديد للمطورين الاختيار من 21 إصداراً مختلفاً يغطي كل منصة تطوير رئيسية. نظام macOS يحصل على ثلاث نسخ منفصلة تشمل معالجات Apple Silicon العادية ونسخة محسنة بتقنية KleidiAI ومعالجات Intel x64. بينما يحصل مطورو Ubuntu على تسع إصدارات تدعم معمارية x64 وarm64 وs390x، مع تحسينات خاصة لـ Vulkan وROCm 7.2 وOpenVINO 2026.0 وSYCL بدقة FP32 وFP16.

المطورون العاملون على Windows يجدون ست نسخ متاحة تغطي المعالجات العادية لـ x64 وarm64، بالإضافة إلى إصدارات محسنة لـ CUDA 12.4 وCUDA 13.1 وVulkan وSYCL وHIP للكروت الرسوميات AMD Radeon، مع ملفات DLL منفصلة للإصدارات المختلفة من CUDA. حتى المطورون في الصين يحصلون على أربع نسخ مخصصة لنظام openEuler تدعم المعالجات الصناعية 310p و910b مع تقنية ACL Graph.

الأهم للمطورين المركزين على التطبيقات المحمولة هو توفر إصدارات مخصصة لـ Android arm64 وiOS XCFramework. تحسين معالجات Adreno الجديد يفتح إمكانيات أوسع لتشغيل نماذج معقدة على الهواتف دون استنزاف البطارية، خاصة مع تقنية MoE التي تنشط أجزاء محددة فقط من النموذج حسب الحاجة. لكن الدعم محدود حالياً بأشكال معينة من النماذج، ولم يكشف الفريق عن جدول زمني لتوسيع التوافق.

GitHub ggml-org