LongSeeker يقدم 5 عمليات لإدارة السياق المرن

🎧 استمع للملخص

بقلم: نور | محررة الأبحاث والدراسات · صوت تحريري بإشراف بشري

عوامل البحث الذكية تواجه معضلة تقنية حقيقية عند تنفيذ المهام المعقدة: كلما طال عملها، تراكمت في ذاكرتها كمية هائلة من المعلومات الوسطية التي قد تُربكها أكثر مما تُساعدها. فريق بحثي من جامعة شنغهاي للعلوم والتقنية طور حلاً ثورياً اسمه LongSeeker يُعيد تعريف كيفية تعامل هذه العوامل مع ذاكرتها العاملة.

المشكلة الأساسية تكمن في أن العوامل التقليدية تُخزن كل شيء بنفس مستوى التفصيل – من الملاحظات المهمة إلى الأخطاء العابرة والمحاولات الفاشلة. هذا التراكم الأعمى يؤدي إلى ثلاث مشاكل كبيرة: زيادة التكاليف المالية لمعالجة السياق الطويل، تدهور الأداء بسبب التشويش، وزيادة احتمالية الأخطاء والهلوسة عندما يفقد النموذج التركيز على ما هو مهم فعلاً.

الحل المقترح يقوم على مبدأ بسيط لكن ذكي: الاحتفاظ بأجزاء مختلفة من مسار العامل بمستويات تفصيل مختلفة حسب أهميتها الحالية للمهمة. بدلاً من تخزين كل شيء أو حذف كل شيء، النظام يُقرر ما يجب تلخيصه، وما يجب حفظه بالتفصيل، وما يجب التخلص منه نهائياً.

لتنفيذ هذا المبدأ، طور الباحثون Context-ReAct، وهو إطار عمل عام يدمج التفكير وإدارة السياق واستخدام الأدوات في حلقة موحدة. النظام يوفر خمس عمليات ذرية تسمح للعامل بإعادة تشكيل سياقه العاملي ديناميكياً:

Skip (التخطي): تجاوز المعلومات غير ذات الصلة دون معالجتها – مفيد عند مواجهة محتوى مكرر أو غير مفيد
Compress (الضغط): تلخيص المعلومات المحلولة أو المُستكشفة بالفعل في نسخة مركزة تحتفظ بالجوهر
Rollback (التراجع): العودة إلى نقطة سابقة في المسار عند الوصول لطريق مسدود أو اكتشاف خطأ
Snippet (المقطع): حفظ جزء مهم من المعلومات كمرجع سريع للاستخدام اللاحق
Delete (الحذف): إزالة الفروع المضللة أو الخاطئة نهائياً من ذاكرة العامل

الدليل الرياضي الذي قدمه الباحثون (وفقاً لورقة البحث ArXiv) أثبت أن عملية الضغط “مكتملة تعبيرياً” – أي أنها قادرة على تمثيل أي نوع من المعلومات المضغوطة دون فقدان القدرة على التعبير. العمليات الأخرى تقدم ضمانات محددة للكفاءة والدقة، مما يقلل من تكلفة التوليد ومخاطر الهلوسة.

بناءً على هذا الإطار النظري، طور الفريق LongSeeker، عامل بحث طويل المدى تم ضبطه من نموذج Qwen3-30B-A3B باستخدام 10 آلاف مسار مُصطنع. العملية تضمنت تدريب النموذج على سيناريوهات بحث معقدة تتطلب إدارة سياق طويل وديناميكي.

النتائج التجريبية مثيرة للإعجاب عبر أربعة معايير تقييم رئيسية. على معيار BrowseComp، حقق LongSeeker نسبة نجاح 61.5% مقابل 43.2% لـ Tongyi DeepResearch و36.2% لـ AgentFold. على النسخة الصينية BrowseComp-ZH، سجل 62.5% مقابل 46.7% و47.3% للمنافسين على التوالي.

هذا التفوق يعني أن LongSeeker تجاوز أقرب منافسيه بأكثر من 18 نقطة مئوية في المتوسط، وهو هامش كبير في معايير تقييم العوامل الذكية. الأداء المتسق عبر اللغتين الإنجليزية والصينية يُظهر قوة النهج المقترح وقابليته للتعميم.

لكن النظام لا يخلو من القيود. التدريب اعتمد بالكامل على البيانات المُصطنعة، مما يثير تساؤلات حول قدرته على التعامل مع تعقيدات العالم الحقيقي. كما أن الاختبارات ركزت على مهام البحث فقط، ولم تشمل مجالات أخرى مثل التحليل المالي أو البحث العلمي المتخصص.

التحدي الآخر يكمن في التكلفة الحاسوبية: النموذج الأساسي Qwen3-30B-A3B يحتوي على 30 مليار معامل، مما يجعله باهظ التشغيل للاستخدامات الواسعة. لم توضح الورقة أيضاً كيفية تحديد متى يجب تطبيق كل عملية من العمليات الخمس، وما إذا كان بالإمكان أتمتة هذا القرار بالكامل.

رغم هذه القيود، البحث يمثل خطوة مهمة نحو تطوير عوامل ذكية أكثر كفاءة في المهام المعقدة. التطبيقات المستقبلية واعدة: من البحث العلمي المتطور إلى التحليل الاستراتيجي للشركات، مروراً بالتخطيط طويل المدى في القطاعات الحكومية. أي مهمة تتطلب معالجة كميات كبيرة من المعلومات المترابطة ستستفيد من هذا النهج.

النتيجة الأساسية واضحة: إدارة الذاكرة التكيفية ليست مجرد تحسين تقني، بل ضرورة لبناء عوامل ذكية قادرة على التفكير العميق والمستمر. LongSeeker يُثبت أن العوامل يمكنها تحقيق نتائج أفضل عندما تتعلم كيف تنسى بذكاء بدلاً من تذكر كل شيء بغباء.

ArXiv