llama.cpp b8882 طبقات WebGPU التحويلية لـ24 منصة

🎧 استمع للملخص

بقلم: يوسف | محرر أدوات الذكاء الاصطناعي · صوت تحريري بإشراف بشري

يحصل llama.cpp على تطوير تقني حاسم في الإصدار b8882 من خلال إضافة دعم WebGPU للطبقات التحويلية ثنائية الأبعاد (conv2d kernels) — وهو تطوير يفتح إمكانية تشغيل نماذج الرؤية الحاسوبية مباشرة داخل المتصفحات دون الحاجة لتثبيت أي برمجيات إضافية (وفقاً لـ GitHub llama.cpp).

يركز التحديث على حل مشاكل تقنية جوهرية كانت تعيق الأداء، بداية من إصلاح حلقات الانتظار المستمر (busy-polls) في بيئة Emscripten بعد التحديث #20618، وإزالة سجلات WebGPU الزائدة. فريق التطوير تعامل مع مشكلة القيم غير المحددة (NaN) في العمليات GET_ROWS عند استخدام f16 كذاكرة تخزين للتكميم في الشيدرز، وحدّث عمليات EXP وEXPM1 للحفاظ على استقرار f16.

الإصلاحات التقنية شملت معالجة بنية IQ4_XS في GET_ROWS لحل مشاكل NaN canonicalization، وتحسين دقة العمليات الحسابية للجذر التربيعي عند العمل مع f16، إلى جانب تحديث عتبات الخطأ للعمليات الثنائية للقسمة. المطورون أعادوا هيكلة مساعدات dequant وأزالوا هياكل التكميم المهجورة، مع تحسين تعريفات الشيدرز لتقليل التكرار.

macOS وiOS: 4 حزم تشمل Apple Silicon العادي، Apple Silicon مع تفعيل KleidiAI، Intel x64، وإطار عمل iOS XCFramework
Linux Ubuntu: 7 تكوينات للمعمارية x64 وarm64 وs390x، مع دعم Vulkan وROCm 7.2 وOpenVINO 2026.0
Windows: 8 إصدارات للمعالجات x64 وarm64، تدعم CUDA 12.4 و13.1 وVulkan وSYCL وHIP، مع مكتبات DLLs منفصلة
Android: حزمة arm64 مخصصة للمعالجات
openEuler: 4 حزم للبنيتين x86 وaarch64 مع دعم معالجات 310p و910b وACL Graph

التطوير الأساسي في طبقات conv2d يمر اختبارات f32 وf16 بنجاح، مع إصلاح مشكلة الوصول خارج حدود الذاكرة في فهرسة الأوزان، وتحسين العمليات الحسابية من خلال إزالة المتغيرات غير المستخدمة. لكن هذا الدعم ما زال في مراحل التطوير المبكرة — تشغيل نماذج الرؤية المعقدة في المتصفحات يتطلب اختبارات أوسع لضمان الاستقرار والأداء الأمثل.

GitHub llama.cpp