llama.cpp b8913 يصلح خلل Buffer Aliasing ويدعم CUDA 13.1

🎧 استمع للملخص

بقلم: يوسف | محرر أدوات الذكاء الاصطناعي · صوت تحريري بإشراف بشري

يحل الإصدار b8913 من مكتبة llama.cpp مشكلة تقنية حادة في معالجة البيانات تُعرف باسم Buffer Aliasing في RMS Fuse – وهو خلل كان يسبب تعارضات في ذاكرة كروت الرسومات أثناء تشغيل النماذج اللغوية الكبيرة.

المشكلة التي تم إصلاحها تحدث عندما تحاول مكونات الـ Shader إعادة استخدام نفس منطقة الذاكرة لعمليات مختلفة بشكل متزامن، مما يؤدي إلى فساد البيانات أو توقف النموذج عن العمل. هذا الخلل كان يظهر بشكل خاص عند تشغيل نماذج تحتاج أكثر من 8 جيجابايت من ذاكرة GPU، حيث تعتمد llama.cpp على تقسيم العمليات على ذاكرة محدودة.

الإصدار الجديد متاح فوراً عبر 22 ملف تنفيذي يغطي كافة أنظمة التشغيل والمعمارية الرئيسية:

macOS – ثلاثة إصدارات للأجهزة الحديثة: Apple Silicon عادي، Apple Silicon مع تحسينات KleidiAI، ومعالجات Intel التقليدية، بالإضافة لحزمة iOS XCFramework
Linux Ubuntu – تسعة إصدارات متخصصة تشمل معالجات x64 و ARM64 و s390x مع دعم Vulkan للرسومات، ROCm 7.2 لكروت AMD، OpenVINO 2026.0 من Intel، و SYCL بدقة FP32 و FP16
Android – إصدار محسن لمعالجات ARM64 للتشغيل المحلي على الأجهزة المحمولة
Windows – ستة إصدارات تغطي CUDA 12.4 و CUDA 13.1 الجديد، Vulkan، SYCL، و HIP لكروت AMD Radeon، مع ملفات DLL منفصلة للتوافق
openEuler الصيني – أربعة إصدارات للمعالجات المحلية 310p و 910b مع دعم ACL Graph للحوسبة المتوازية

التطوير الأهم في هذا الإصدار هو الدعم الكامل لـCUDA 13.1 – النسخة الأحدث من مكتبة NVIDIA التي تحسن كفاءة الذاكرة بنسبة تصل إلى 15% مقارنة بـ CUDA 12. إذا كنت تملك كرت RTX 4090 أو 4080، ستحتاج لتحميل ملفات cudart-llama-bin-win-cuda-13.1 المنفصلة لتجنب تعارضات مع إصدارات CUDA القديمة المثبتة على نظامك.

أبرز التحسينات تظهر عند تشغيل نماذج Llama 2 70B أو Code Llama 34B على أجهزة بذاكرة 16-24 جيجابايت. المطورون الذين كانوا يواجهون رسائل خطأ مثل “CUDA out of memory” أو توقف مفاجئ أثناء توليد النص الطويل سيلاحظون استقراراً ملحوظاً في الأداء.

للمطورين العرب الذين يعملون على تطبيقات الذكاء الاصطناعي المحلية، هذا التحديث يزيل العقبة الأكبر التي كانت تمنع تشغيل نماذج اللغة العربية الكبيرة مثل Jais أو AraT5 على الأجهزة الشخصية. لكن تذكر أن النماذج التي تزيد عن 30 مليار معامل ستبقى تتطلب ذاكرة كبيرة حتى مع هذه التحسينات.

GitHub llama.cpp