llama.cpp إصدار b9122 إصلاحات دقة النماذج متعددة الوسائط

بقلم: يوسف | محرر أدوات الذكاء الاصطناعي · صوت تحريري بإشراف بشري

أطلق فريق تطوير llama.cpp الإصدار b9122 مع مجموعة شاملة من الإصلاحات المخصصة لحل مشاكل الدقة في النماذج متعددة الوسائط، خاصة تلك التي تعتمد على WebGPU في التشغيل. التحديث يركز بشكل أساسي على معالجة مشاكل الحساب التي كانت تؤثر على جودة المخرجات عند التعامل مع البيانات المختلطة والعمليات الحسابية المعقدة.

تحسين التعامل مع الأنواع المختلطة: إصلاح منطق حساب الذاكرة المشتركة واستخدام نوع f32 لضمان دقة أعلى في العمليات الحسابية
إصلاح دوال GELU: معالجة شاملة لدوال gelu و gelu_quick و gelu_erf مع استخدام clamp لتجنب قيم NaN
تحسين Flash Attention: إصلاح مسار tile وحل مشكلة hardcode للنوع v في flash-attn-tile
تحسين دالة exp: استخدام نطاق أكثر أماناً للدالة الأسية مع حد أقصى 80 بدلاً من القيم السابقة لتجنب تجاوز قدرات f32
تنظيف كود المشروع: إزالة المفاتيح المكررة في pipeline وحذف الدوال المضمنة غير الضرورية لـ min/max group size
تحسين سير العمل: إعادة ترتيب مسارات flash attention وحل تضارب الأنواع لضمان استقرار أفضل

الإصدار الجديد متاح عبر صفحة GitHub الرسمية بدعم شامل لمنصات متعددة. على macOS، يمكنك تحميل نسخة Apple Silicon العادية أو النسخة المحسنة بتقنية KleidiAI للحصول على أداء أفضل. نسخ Linux تشمل دعماً لـ Vulkan و ROCm 7.2 و OpenVINO 2026.0 و SYCL، بينما نسخ Windows تدعم CUDA 12 و CUDA 13 إلى جانب Vulkan و HIP. المطورون العرب الذين يعملون على أجهزة متخصصة سيجدون دعماً لمعالجات openEuler مع تقنيات 310p و 910b.

هذه التحديثات تأتي استجابة لتقارير المطورين حول مشاكل الدقة في المشاريع التي تتطلب معالجة متقدمة للبيانات المتعددة الوسائط. التركيز على WebGPU يعكس الاهتمام المتزايد بالاستفادة من قوة معالجة الرسومات في تشغيل النماذج اللغوية الكبيرة خارج البيئات التقليدية لوحدة المعالجة المركزية.

GitHub llama.cpp