Llama.cpp b8953 يدعم Q1_0 في WebGPU مع 21 منصة

🎧 استمع للملخص

بقلم: يوسف | محرر أدوات الذكاء الاصطناعي · صوت تحريري بإشراف بشري

طرح فريق Llama.cpp الإصدار b8953 بتحديث تقني مهم يضيف دعماً كاملاً لتكميم Q1_0 في بيئة WebGPU، مع نواة محسّنة للضرب السريع بين المصفوفات والمتجهات تقلل استهلاك الذاكرة وتزيل التكرارات الزائدة في تهيئة الذاكرة المشتركة.

التحديث يشمل 21 إصداراً محملاً مسبقاً يغطي كل المنصات الرئيسية والمعماريات المختلفة. نواة Q1_0 الجديدة تستهدف تشغيل النماذج الضخمة على الأجهزة محدودة الموارد دون التضحية بسرعة الاستجابة، ما يجعل تطبيقات الذكاء الاصطناعي في المتصفحات أكثر عملية.

macOS وiOS: ثلاث نسخ لـ Apple Silicon arm64 منها واحدة مع تمكين KleidiAI، نسخة لمعمارية Intel x64، و iOS XCFramework للمطورين
Ubuntu Linux: تسع نسخ تشمل معماريات x64 وarm64 وs390x مع تحسينات لـ Vulkan وROCm 7.2 وOpenVINO وSYCL FP32/FP16
Windows: ثمان نسخ تدعم معماريات x64 وarm64 مع تحسينات لـ CUDA 12.4 وCUDA 13.1 وVulkan وSYCL وHIP
Android وopenEuler: نسخة Android arm64 واحدة، وأربع نسخ متخصصة لتوزيعة openEuler مع دعم معالجات 310p و910b وACL Graph

التركيز على WebGPU يأتي في سياق تحول الصناعة نحو تشغيل النماذج محلياً دون الاعتماد على الخوادم السحابية. تحسين Q1_0 يقلل متطلبات الذاكرة إلى الحد الأدنى مع الحفاظ على أداء مقبول، لكن هذا التكميم الشديد قد يؤثر على دقة النتائج في المهام المعقدة التي تتطلب استنتاجات دقيقة.

GitHub ggml-org/llama.cpp