llama.cpp b9000 تسريع Flash Attention معالجات Hexagon

🎧 استمع للملخص

بقلم: يوسف | محرر أدوات الذكاء الاصطناعي · صوت تحريري بإشراف بشري

فريق تطوير llama.cpp يطلق الإصدار b9000 مع تطوير كامل لتقنية Flash Attention المُحسّنة خصيصاً لمعالجات Hexagon من كوالكوم، في خطوة تهدف لتحسين أداء النماذج الكبيرة على الأجهزة المحمولة والمدمجة بشكل كبير.

تطوير HMX Flash Attention للمرحلة التمهيدية: إضافة HMX-accelerated flash attention للـ prefill مع استبدال assembly wrappers بـ Q6_ intrinsics في hmx-utils.h، مما يحسن رؤية المترجم لجدولة العمليات مع الحفاظ على نفس كفاءة التعليمات
تحسين softmax تجريبي بـ fp16: دعم EXP2_HF يقلل العمليات الحسابية من 44 إلى 22 ALU ops لكل 64 lanes، مع دمج log2(e) في qk_scale واستخدام hvx_exp2_hf مباشرة للعمليات P و m_diff
تطوير cost model للأداء الأمثل: تحديث معاملات cost model بناءً على بيانات profiling فعلية، مع توسيع matmul pipeline gate ليشمل الأشكال k > n مثل FFN_down
إصلاحات دقة prefill الحاسمة: معالجة مشاكل dst indexing و softmax reduce و V stride، بالإضافة لإصلاح p_tiles dual-tile OOB race مع تمكين المعالجة المتعددة والـ pipeline
حفظ additive mask bias: إصلاح المسار السريع no-ALiBi الذي كان يتخطى mask add ويفقد القيم الإضافية للـ positional bias، مع الحفاظ على slope-mul skip عندما slope≡1.0
تحسين التوزي المتعدد: استخراج حلقات Q-load و O-store إلى worker_pool-parallel helpers لتوزيع عمل تحويل F32↔F16 عبر نطاقات الصفوف، مع تخفيف بوابة softmax threading من n_row_vec_cnt >= n_threads إلى >= 2

الإصدار يوفر 30 build جاهزاً عبر منصات متنوعة من macOS Apple Silicon إلى openEuler aarch64، مع دعم CUDA 12.4 و 13.1 DLLs الأحدث على Windows. هذا التنوع يضمن وصول تحسينات Hexagon لقاعدة واسعة من المطورين.

التركيز على معالجات Hexagon يُظهر اتجاهاً مهماً نحو تحسين الذكاء الاصطناعي للأجهزة المحمولة، خاصة مع تزايد الطلب على المعالجة المحلية. التحسينات الجديدة تفتح المجال أمام تطبيقات أكثر كفاءة للمطورين العرب العاملين على حلول الذكاء الاصطناعي المحسّنة للموارد المحدودة.

GitHub ggml-org/llama.cpp