Llama.cpp يضيف نواة تسريع i-quants

🎧 استمع للملخص

بقلم: يوسف | محرر أدوات الذكاء الاصطناعي · صوت تحريري بإشراف بشري

محرك Llama.cpp أطلق الإصدار b8951 مع إضافة جوهرية: نواة حاسوبية سريعة لعمليات ضرب المصفوفات والمتجهات matrix-vector kernels خصيصاً للكميات المضغوطة i-quants. هذا التحديث يستهدف تحسين أداء الاستنتاج inference للنماذج اللغوية المضغوطة التي تعتمد على تقنية التكميم الصحيح.

التطوير يحل مشكلة حقيقية في بيئات الإنتاج: عندما تريد تشغيل نموذج لغوي كبير على موارد محدودة، تحتاج ضغط النموذج عبر i-quantization لتوفير الذاكرة. المشكلة أن عمليات الضرب المتجهي في هذه النماذج المضغوطة كانت بطيئة نسبياً، والنواة الجديدة تحل هذا الاختناق تحديداً.

الإصدار يقدم تغطية شاملة للمنصات بـ 20 خياراً مختلفاً للتحميل. أجهزة macOS تحصل على ثلاثة إصدارات: Apple Silicon العادي، وآخر مُحسّن بـ KleidiAI، ومعالجات Intel x64، بالإضافة لـ iOS XCFramework للتطبيقات المحمولة.

منظومة Linux تتوسع بشكل لافت: Ubuntu بمعمارية x64 وarm64 وs390x للمعالجة التقليدية، مع خيارات GPU عبر Vulkan وROCm 7.2، ودعم Intel عبر OpenVINO وSYCL بدقة FP32 وFP16. أما openEuler فتحصل على دعم خاص لمعالجات Huawei Ascend 310p و910b مع ACL Graph optimization.

Windows يغطي طيفاً واسعاً: CUDA 12.4 والجديد CUDA 13.1 مع ملفات DLL المرفقة، Vulkan للتوافق العام، SYCL لمعالجات Intel، وHIP لبطاقات AMD Radeon. Android يحصل على إصدار arm64 للتطبيقات المحمولة.

هذا التنوع يعكس نضج Llama.cpp كحل إنتاجي – لم يعد مجرد أداة تجريبية بل محرك قادر على التكيف مع بنى تحتية مختلفة جذرياً. المطورون الذين يعملون في بيئات مؤسسية معقدة سيجدون خياراً مناسباً بغض النظر عن المواصفات التقنية.

القيد الأساسي أن التحسينات تركز على i-quants فقط. النماذج المضغوطة بطرق أخرى كـ GGML أو GPTQ لن تستفيد من تسريع النواة الجديدة. كما أن كثرة الخيارات قد تربك المطورين الجدد – أي إصدار تختار لمشروع محدد؟

GitHub ggml-org/llama.cpp