تُحدَّث يومياً

مصدرُك العربي
لمستقبل الذكاء الاصطناعي

أخبار، تقارير، أدوات وتحليلات يومية — كل ما تحتاجه لمتابعة ثورة الذكاء الاصطناعي باللغة العربية

✅ تم الاشتراك!
تعلم و استخدام الذكاء الاصطناعي

DashAttention: آلية انتباه هجينة تحقق كفاءة 75% مع دقة الانتباه الكامل

بقلم: نور | محررة الأبحاث والدراسات · صوت تحريري بإشراف بشري

تكمن المعضلة الأساسية في النماذج اللغوية الكبيرة في استهلاك الذاكرة والحوسبة عند معالجة النصوص الطويلة. الحلول الحالية كـ NSA وInfLLMv2 تعتمد على عملية top-k لاختيار أهم البلوكات، لكنها تفترض عدداً ثابتاً من الرموز ذات الصلة وتقطع تدفق التدرجات بين مراحل المعالجة. هذا القطع يحد من قدرة النموذج على التعلم الأمثل.

فريق بحثي من ثمانية علماء بقيادة يوكسيانغ هوانغ طور DashAttention كبديل جذري يحافظ على الاستمرارية الرياضية. بدلاً من القطع الحاد لعملية top-k، تستخدم التقنية الجديدة تحويل α-entmax التكيفي الذي يختار عدداً متغيراً من البلوكات حسب طبيعة كل استعلام.

النتيجة الحاسمة: نظام “غير مشتت” يحقق دقة مماثلة للانتباه الكامل مع 75% من التناثر، ويحافظ على قابلية التمايز الكاملة عبر الهيكل الهرمي بأكمله.

  1. استبدال top-k بـ α-entmax: العملية التقليدية تحدد عدداً ثابتاً من أهم البلوكات، بينما α-entmax تسمح بانتقاء متغير يتكيف مع تعقيد الاستعلام الحالي، مما يوفر مرونة أكبر في التعامل مع أنماط مختلفة من النصوص.
  2. الحفاظ على التدرجات المستمرة: التحويل الناعم يضمن تدفق التدرجات عبر المرحلتين دون انقطاع، مما يحسن جودة التدريب ويسمح للنموذج بتعلم استراتيجيات انتباه أكثر تطوراً.
  3. المرحلة الأولى كمرشح ذكي: الانتقاء التكيفي يقدم معلومات مسبقة مفيدة للمرحلة الثانية، حيث يوجه انتباه softmax بناءً على فهم أعمق لأهمية كل منطقة في النص.
  4. إثبات عدم التشتت رياضياً: الباحثون برهنوا أن DashAttention تحافظ على تماسك المعلومات عبر السياق الطويل، وهي خاصية حيوية لفهم النصوص المعقدة والمترابطة.
  5. تفوق في أنظمة التناثر العالية: التجارب أظهرت حدود Pareto أفضل من NSA وInfLLMv2، خاصة عندما تصل نسبة التناثر إلى مستويات عالية تتطلب دقة في الاختيار.
  6. تنفيذ محسن للـ GPU: الفريق طور تنفيذاً بـ Triton يحقق تسريعاً يصل إلى أكثر من الضعف مقارنة بـ FlashAttention-3 أثناء الاستنتاج، مما يجعل التقنية قابلة للتطبيق التجاري.

التطبيقات العملية تشمل معالجة المستندات القانونية الطويلة، تحليل الأبحاث العلمية، ومساعدات الكتابة التي تحتاج لفهم سياق ممتد. النماذج المدربة بهذه التقنية يمكنها التعامل مع محادثات طويلة دون فقدان الخيط الرئيسي، وتحليل كتب كاملة للإجابة على أسئلة معقدة.

التحديات المتبقية تتركز في ضبط معاملات α-entmax لمختلف أنواع المهام. الباحثون يؤكدون أن اختيار القيم المناسبة يتطلب تجريباً دقيقاً، كما أن الاختبارات شملت نماذج محددة وتحتاج لتوسيع على معمارات مختلفة. لكن النتائج الأولية تشير إلى إمكانيات هائلة لتقليل تكلفة الحوسبة دون التضحية بجودة المخرجات.

ArXiv

مقالات ذات صلة

زر الذهاب إلى الأعلى