Sessa بنية معمارية تجمع Transformer وMamba للنصوص الطويلة

🎧 استمع للملخص

بقلم: نور | محررة الأبحاث والدراسات · صوت تحريري بإشراف بشري

طور الباحث Liubomyr Horbatko بنية معمارية جديدة تُدعى Sessa (Selective State Space Attention) تحل واحدة من أكبر التحديات في معالجة اللغات الطبيعية: كيف تحتفظ النماذج اللغوية بالمعلومات المهمة عند معالجة نصوص طويلة جداً دون أن تفقد دقتها أو كفاءتها.

النماذج الحالية تواجه مفاضلة صعبة. عندما يحاول Transformer قراءة نص من آلاف الكلمات، ينتشر انتباهه بشكل منتشر عبر كامل النص، مما يقلل تأثير كل كلمة منفردة إلى O(1/ℓ) حيث ℓ يمثل طول السياق. في المقابل، تعالج نماذج الحالة المنظمة مثل Mamba النصوص تسلسلياً عبر مسار تغذية راجعة صريح، لكن حساسيتها للمعلومات البعيدة تتلاشى أسياً مع المسافة الزمنية. النتيجة أن المعماريات الموجودة إما تسترجع من الماضي في قراءة واحدة أو تنشر المعلومات عبر سلسلة تغذية راجعة واحدة (وفقاً للورقة البحثية).

Sessa يكسر هذا الحاجز بوضع آلية الانتباه داخل مسار التغذية الراجعة نفسه، مما ينشئ تجميعاً تكرارياً متعدد المسارات ضمن الطبقة الواحدة. هذا التصميم يحقق نظاماً للذاكرة يتبع قانون القوة بمعدل O(ℓ^-β) حيث 0<β<1، وهو أبطأ بشكل مذهل من التلاشي الخطي O(1/ℓ) في Transformer.

الابتكار الأساسي يكمن في أن Sessa يجمع نقاط القوة من كلا النهجين. من Transformer يأخذ قدرة الانتباه على الاسترجاع الانتقائي، ومن Mamba يأخذ الكفاءة الحاسوبية للمعالجة التسلسلية. النتيجة نظام يحقق “flexible selective retrieval” يتضمن ملفات تعريف غير متلاشية للذاكرة.

في إعداد التوجيه المنتشر المنتظم، يثبت الباحث رياضياً أن تأثير المعلومات في Sessa يحقق معدل Θ(ℓ^-β) (وفقاً للورقة البحثية)، مما يعني أن هذا المعدل محكم نظرياً ولا يمكن تحسينه أكثر تحت نفس الافتراضات.

الاختبارات العملية تؤكد الوعود النظرية. تحت معماريات متطابقة وميزانيات تدريب متساوية، حقق Sessa أقوى أداء على معايير السياق الطويل مع الحفاظ على قدرة تنافسية مع خطوط الأساس من نمط Transformer وMamba في نمذجة اللغة قصيرة السياق. هذا يعني أن المطورين لن يضطروا للاختيار بين الأداء في السياقات القصيرة والطويلة.

التطبيقات العملية لهذا التطوير واسعة. من تحليل المستندات القانونية المعقدة التي تمتد لمئات الصفحات، إلى معالجة محادثات خدمة العملاء الطويلة، إلى فهم الكتب والتقارير البحثية بالكامل. Sessa يفتح المجال لتطبيقات ذكاء اصطناعي كانت محدودة سابقاً بقيود الذاكرة.

لكن التحدي الأكبر يبقى في الانتقال من البحث الأكاديمي إلى التطبيق العملي. الورقة البحثية تركز على الإثبات النظري والاختبارات المعملية، لكنها لا تتطرق لتفاصيل التنفيذ العملي أو متطلبات الحوسبة أو كيفية دمج Sessa في الأنظمة الموجودة. هذه الفجوة بين النظرية والممارسة ستحدد سرعة تبني هذه التقنية في الصناعة.

ما يجعل Sessa مثيراً للاهتمام أيضاً هو توقيته. مع تزايد الحاجة لنماذج قادرة على معالجة كميات ضخمة من النصوص – من تحليل قواعد البيانات الطبية إلى مراجعة العقود التجارية – يأتي هذا التطوير ليقدم حلاً لمشكلة حقيقية تواجه الصناعة.

ArXiv