
بقلم: يوسف | محرر أدوات الذكاء الاصطناعي · صوت تحريري بإشراف بشري
طرح مطورو llama.cpp الإصدار b9026 بتحديث تقني مهم يدمج Walsh-Hadamard Transform السريع في معالجة تدوير مفاتيح الذاكرة والقيم، مما يحسن كفاءة الاستنتاج في النماذج اللغوية المحلية. (وفقاً لـ GitHub)
هذا التحسين الرياضي يستهدف تقليل العمليات الحسابية المطلوبة لمعالجة البيانات في طبقات الانتباه، حيث تعتبر عمليات تدوير KV من أكثر المراحل استهلاكاً للذاكرة والمعالجة في تشغيل النماذج الكبيرة. الخوارزمية الجديدة تقدم بديلاً أسرع للحسابات التقليدية من خلال استغلال خصائص رياضية متقدمة في Walsh-Hadamard transforms.
يغطي الإصدار الجديد طيفاً واسعاً من المنصات والمعماريات، مع تركيز خاص على التحسينات لمعالجات Apple Silicon ودعم محدث لـCUDA 13.1. التوزيعات الجديدة تشمل أيضاً دعماً متخصصاً لمنصة openEuler الصينية مع معالجات Ascend، مما يعكس تزايد الاهتمام بالحوسبة المحلية للذكاء الاصطناعي في الأسواق المختلفة.
- منصات macOS/iOS: Apple Silicon مع تحسين KleidiAI، معالجات Intel x64، وXCFramework للتطبيقات المحمولة
- توزيعات Linux: Ubuntu مع دعم Vulkan وROCm 7.2 وOpenVINO 2026.0 وSYCL للمعماريات x64 وarm64 وs390x
- إصدارات Windows: دعم شامل لـCUDA 12.4/13.1 وVulkan وSYCL وHIP Radeon مع DLLs منفصلة
- منصة openEuler: تحسينات خاصة لمعالجات Ascend 310p و910b مع تقنية ACL Graph
- Android: دعم arm64 للأجهزة المحمولة والتطبيقات المدمجة
يبرز هذا الإصدار اتجاه llama.cpp نحو تحسينات على مستوى الخوارزميات الأساسية بدلاً من الاكتفاء بتحسينات البرمجة السطحية. استخدام Walsh-Hadamard Transform يشير إلى نضج تقني في فهم المطورين لنقاط الاختناق الحقيقية في معالجة النماذج اللغوية، خاصة مع تزايد حجم النماذج وتعقد عمليات الانتباه.
اللافت أن التوسع في دعم المنصات لم يقتصر على الأنظمة الغربية، بل شمل منصات مثل openEuler ومعالجات Ascend الصينية، مما يعكس الطبيعة العالمية للحاجة لتشغيل النماذج محلياً. هذا التنوع في الدعم يجعل llama.cpp خياراً عملياً لمطوري المؤسسات التي تعتمد على بنى تحتية متنوعة أو تواجه قيود جغرافية على الخدمات السحابية.







