
بقلم: يوسف | محرر أدوات الذكاء الاصطناعي
فريق llama.cpp يطرح الإصدار b8763 مع تحسين أساسي لمطوري CUDA: تخطي تجميع نوى Flash Attention الزائدة عن الحاجة. التحديث يشمل أيضاً دعماً محسناً لـ KleidiAI على معالجات Apple Silicon ونسخاً جاهزة لـ23 منصة تطوير مختلفة.
التحسين الرئيسي يستهدف عملية التجميع نفسها – بدلاً من بناء جميع نوى Flash Attention، يتخطى النظام الآن النوى غير المستخدمة، مما يقلل وقت التجميع واستهلاك ذاكرة التجميع. هذا مفيد خاصة للمطورين الذين يعملون على بطاقات NVIDIA ويعيدون بناء المكتبة بانتظام.
إضافة KleidiAI المحسنة تعني أداءً أسرع لمستخدمي macOS على معالجات ARM64. صفحة الإطلاق تقدم نسختين منفصلتين لـ Apple Silicon: واحدة عادية وأخرى مع تفعيل KleidiAI، بالإضافة لنسخة Intel x64 التقليدية.
تشمل النسخ الجديدة توزيعات Linux محسنة لـ Ubuntu مع دعم Vulkan وROCm 7.2 وOpenVINO 2026.0، ونسخ Windows مع CUDA 12.4 و13.1 مرفقة بملفات DLL اللازمة. الملفت أن الإطلاق يدعم أيضاً معالجات صينية متخصصة 310p و910b ضمن توزيعة openEuler مع تقنية ACL Graph.
المطورون الذين يعتمدون على نماذج اللغة الكبيرة في بيئات الإنتاج سيلاحظون فرقاً في سرعة التجميع، لكن التحسن الفعلي في أداء الاستنتاج يحتاج قياساً مقارناً خاصة مع النماذج الأكبر من 7B معاملة. النسخة الحالية لا تذكر تفاصيل عن تحسينات استهلاك الذاكرة أثناء التشغيل.



