llama.cpp b8992 يدعم WebAssembly والنماذج الكبيرة

🎧 استمع للملخص

بقلم: يوسف | محرر أدوات الذكاء الاصطناعي · صوت تحريري بإشراف بشري

مشروع llama.cpp يدفع الإصدار b8992 الذي يهاجم عقدة تقنية معقدة: تشغيل النماذج اللغوية الضخمة التي تتجاوز 2 جيجابايت على بيئات WebAssembly 32-bit (وفقاً لـ GitHub). التحديث الجوهري يعيد هندسة مكون llama-mmap باستخدام دوال ftello/fseeko بدلاً من الدوال التقليدية التي تفشل مع الملفات الكبيرة في البيئات المحدودة.

الإصدار يأتي مع 26 نسخة محملة مسبقاً موزعة على خمسة أنظمة تشغيل، مع تنويع تقني يعكس تعقيد متطلبات التشغيل:

macOS وiOS يحصلان على 4 إصدارات تبدأ بنسخة Apple Silicon الأساسية، تليها نسخة معززة بتقنية KleidiAI للتسريع، ونسخة Intel x64 للأجهزة القديمة، وإطار iOS XCFramework للمطورين الذين يبنون تطبيقات محمولة.

Linux يستحوذ على النصيب الأكبر بـ9 إصدارات تغطي توزيعة Ubuntu عبر معمارات x64 وarm64 وs390x. الإصدارات تتنوع بين CPU خالص ومعجل بـVulkan وكروت AMD بـROCm 7.2 وIntel بـOpenVINO 2026.0 وحلول SYCL بدقة FP32 وFP16.

Windows يحصل على 6 إصدارات تبدأ بمعالجات CPU للمعمارات x64 وarm64، وتمتد لتشمل CUDA 12.4 وCUDA 13.1 مع ملفات DLL منفصلة لكل إصدار، بالإضافة لدعم Vulkan وSYCL وكروت HIP Radeon.

Android يحصل على إصدار واحد لمعمارية arm64، بينما توزيعة openEuler الصينية تحظى بـ4 إصدارات تدعم معالجات 310p و910b عبر معمارتي x86 وaarch64، مع تحسين خاص لمكتبة ACL Graph في إصدارات 910b.

هذا التنوع الواسع يحل مشكلة حقيقية للمطورين الذين يعملون مع النماذج اللغوية عبر بيئات متباينة، لكنه يطرح تحدي الاختيار للمستخدمين الجدد. الفصل بين ملفات CUDA الأساسية وملفات DLL يقلل حجم التنزيل ويسهل إدارة التبعيات، لكن يضاعف عدد الملفات المطلوبة لإعداد كامل.

التحديث التقني لـllama-mmap ليس مجرد تحسين طفيف – إنه يفتح الباب لتشغيل نماذج ضخمة في بيئات كانت محظورة سابقاً، خاصة تطبيقات الويب التي تعتمد على WebAssembly للمعالجة المحلية دون إرسال البيانات للخوادم.

GitHub