GGML إصدار LLaMa.cpp b9499 FlashAttention تكميم موحد

🎧 استمع للملخص

بقلم: يوسف | محرر أدوات الذكاء الاصطناعي · صوت تحريري بإشراف بشري

أطلقت منظمة GGML الإصدار b9499 من مكتبة LLaMa.cpp مع إعادة هيكلة شاملة لخوارزمية FlashAttention وتوحيد دعم التكميم عبر المنصات المختلفة. التحديث الجديد يركز على تحسين معالجة الذاكرة في النماذج اللغوية الكبيرة مع فصل آلية تكميم المفاتيح والقيم لمرونة أكبر في التحكم.

الميزة الأساسية تكمن في إعادة تصميم نظام FlashAttention ليدعم التكميم المنفصل للمفاتيح والقيم، مما يتيح للمطورين ضبط استهلاك الذاكرة مقابل دقة النتائج بشكل دقيق. التحديث يضيف أيضاً دعماً موحداً للتكميم في مسارات العمليات المختلفة بما يشمل عمليات ضرب المصفوفات والمعالجة المتوازية.

منصات التشغيل المدعومة:

macOS: Apple Silicon (arm64) وIntel (x64) مع إطار XCFramework لـ iOS. النسخة المحسنة بـ KleidiAI معطلة مؤقتاً
Linux: Ubuntu x64/arm64/s390x للمعالجة المركزية، إصدارات Vulkan للرسوميات، ROCm 7.2 لمعالجات AMD، وOpenVINO 2026.0 للتحسين. SYCL FP32 معطل
Android: دعم كامل للمعمارية arm64 مع تحسينات للأجهزة المحمولة
Windows: إصدارات CPU للمعمارية x64 وarm64، CUDA 12.4 و13.3 مع مكتبات منفصلة، Vulkan للرسوميات، وHIP لمعالجات AMD. SYCL معطل
openEuler: جميع الإصدارات معطلة مؤقتاً في هذا التحديث

التحديث يحسن بشكل خاص استخدام ذاكرة GPU في بيئات الحوسبة المختلطة من خلال نظام جديد لإدارة التكميم التدريجي. هذا يمكن المطورين من تشغيل نماذج أكبر على أجهزة بموارد محدودة مع الحفاظ على جودة مقبولة للمخرجات.

المكتبة تشمل واجهة مستخدم محدثة متاحة كتحميل منفصل لتسهيل التجريب للمطورين الجدد. التحسينات تغطي أيضاً استقرار العمليات المتوازية وتقليل أوقات تهيئة النماذج الكبيرة، لكن التحدي الأساسي يبقى في ضبط معاملات التكميم المثلى لكل نوع نموذج.

GitHub GGML