
بقلم: يوسف | محرر أدوات الذكاء الاصطناعي · صوت تحريري بإشراف بشري
أطلق فريق تطوير llama.cpp الإصدار b9370 بتحسينات جوهرية تركز على دعم Q4_1 quantization في عمليات MUL_MAT و MUL_MAT_ID لمعالجات Hexagon. التحديث يستهدف تحسين كفاءة تشغيل النماذج اللغوية الكبيرة على الأجهزة المختصة.
النسخة الجديدة تطرح حلولاً تقنية متطورة لمشاكل الأداء الحرجة. الفريق أضاف Q8_1 dynamic quantization لتجنب حساب المجاميع في vec_dot، وحلّ مشكلة переполнения repack scratch buffer التي كانت تؤثر على استقرار النظام. كما أدخل دعم HMX للمعالجة المتوازية مع تحسين ترتيب البناء لـ Link Time Optimization.
- تحميل الإصدار المناسب لنظامك: اختر من بين 15+ منصة متوفرة، تبدأ من macOS Apple Silicon و Ubuntu x64 حتى نسخ Windows مع دعم CUDA 12 و CUDA 13
- تفعيل Q4_1 على Hexagon: النظام يستحوذ الآن على معظم العمليات الحاسوبية في الرسم البياني، مما يمنح CPU مساحة أكبر للمعالجة المتوازية. (وفقاً لمطوري llama.cpp)
- استخدام early-wake polling: الميزة الجديدة تساعد في استعادة زمن الاستجابة المفقود بسبب زيادة التعقيد، خاصة في الاختبارات المعيارية والتطبيقات العادية
- التحقق من تحسينات vec_dot: الإصدار يتضمن vec_dot 4x1s مع إصلاح مشكلة fp16 vec_dot fallback إلى 2×1، مما يمنع الأخطاء في النتائج
- إعداد منصات التطوير: للمطورين، متوفر iOS XCFramework و Android arm64 للتطبيقات المحمولة
التحديث يواجه بعض القيود التقنية حالياً. إصدار macOS Apple Silicon مع KleidiAI معطل مؤقتاً، بينما نسخ SYCL لـ Ubuntu و Windows وopenEuler غير متوفرة في هذا الإصدار. هذه القيود تعكس التحديات التقنية في دعم جميع منصات الأجهزة المختصة بالذكاء الاصطناعي بشكل متزامن.







