WorldEvolver نماذج عالمية ذاتية التطور لوكلاء LLM

🎧 استمع للملخص

بقلم: نور | محررة الأبحاث والدراسات · صوت تحريري بإشراف بشري

المشكلة الجوهرية في وكلاء LLM ذوي الأفق الزمني الطويل ليست في قدرتهم على التصرف، بل في قدرتهم على التنبؤ بعواقب أفعالهم قبل تنفيذها. تُقدّم النماذج العالمية (World Models) حلاً مبدئياً لهذه المشكلة، إذ تزوّد الوكيل برؤية استباقية لما سيحدث. غير أن الرؤية الاستباقية غير الموثوقة تُعدّ في أحيان كثيرة أسوأ من غيابها — فالوكيل قد يتجاهلها، أو يسيء استخدامها، أو تُدهور قراراته بدلاً من أن تُحسّنها. هذه الإشكالية بالضبط هي ما يعالجه فريق من الباحثين في ورقة بحثية جديدة نُشرت على arXiv في 29 يونيو 2026.

يقترح الباحثون Xuan Zhang وWenxuan Zhang وSee-Kiong Ng وYang Deng إطاراً يسمّونه WorldEvolver، وهو نموذج عالمي ذاتي التطور يُراجع سياق نشره في وقت الاستدلال دون أن يلمس معاملات الوكيل أو النموذج الأساسي. الفكرة الجوهرية تكمن هنا: بدلاً من إعادة التدريب الدورية المكلفة، يتعلّم النظام من أخطائه الخاصة أثناء العمل الفعلي.

يتألف WorldEvolver من ثلاثة وحدات تعمل معاً لتحقيق هذا التطور الذاتي:

الذاكرة الحلقية (Episodic Memory): تستغل الانتقالات الفعلية للأفعال التي نفّذها الوكيل عبر آلية استرجاع (retrieval-based simulation)، وتعيد توظيفها لمحاكاة سيناريوهات مستقبلية. بدلاً من الاعتماد الكلي على ما تعلّمه النموذج مسبقاً، تجعل هذه الوحدة التجربة المعاشة مصدراً مباشراً للتنبؤ.
الذاكرة الدلالية (Semantic Memory): تُحلّل الفجوات بين توقعات النموذج وما حدث فعلياً (prediction-observation mismatches)، وتستخرج منها قواعد إرشادية راسخة (persistent heuristic rules) تُضاف إلى سياق النموذج. إنها آلية تعلّم ضمني تبني قاعدة معرفية تتراكم مع كل تفاعل.
الاستبصار الانتقائي (Selective Foresight): تُرشّح التنبؤات ذات الثقة المنخفضة وتُقصيها قبل دمجها في سياق استدلال الوكيل. الفلسفة هنا واضحة: التنبؤ السيئ يُضر أكثر مما ينفع، وأفضل استجابة للشك هي الصمت الانتقائي.

اختبر الفريق هذا الإطار على منصتين بيئيتين معياريتين في مجال الوكلاء: ALFWorld التي تحاكي مهام التنقل والتلاعب في بيئات نصية منزلية، وScienceWorld التي تعرض سيناريوهات علمية تفاعلية تستلزم تخطيطاً متعدد الخطوات. لقياس دقة التنبؤ استخدم الفريق معيار Word2World، بينما اعتمدوا على AgentBoard لقياس معدل نجاح الوكيل في المهام الفعلية — وهو تمييز جوهري بين جودة النموذج العالمي كأداة تنبؤية وانعكاسه الفعلي على أداء التخطيط.

النتائج عبر ثلاثة نماذج أساسية (backbones) مختلفة كانت متسقة: حقق WorldEvolver أعلى دقة في التنبؤ مقارنةً بجميع خطوط الأساس المختبرة من نماذج عالمية أخرى، كما تقدّم على المنافسين في معدل نجاح الوكيل downstream. هذا التناسق عبر ثلاثة معماريات مختلفة يُقلّص احتمال أن تكون النتائج محصورة بنموذج بعينه.

ما يجعل هذا النهج مثيراً للاهتمام المنهجي هو إجابته على سؤال لا تطرحه معظم الأوراق البحثية بوضوح: كيف تجعل نظاماً أفضل مع الوقت دون تغيير بنيته؟ الإجابة التقليدية هي Fine-tuning أو تحديث المعاملات. أما WorldEvolver فيقترح مساراً ثالثاً — مراجعة السياق في وقت الاستدلال (test-time context revision) كآلية كافية لتعزيز كل من الدقة التنبؤية وأداء التخطيط في آنٍ واحد. وهذا يُبقي البنية التحتية الثمينة للوكيل والنموذج الأساسي سليمة كلياً.

الورقة لا تدّعي حل مشكلة الفهم العميق للعالم، وهذا تحفظ مشروع. فالذاكرة الحلقية تعتمد على تنوع كافٍ في التجارب السابقة لتكون الاسترجاعية مفيدة، والقواعد الدلالية المستخرجة قد تعكس أنماطاً ظرفية لا قوانين عامة. لكن ما أثبتته التجارب — وبشكل موحّد عبر منصات ونماذج متعددة — هو أن مراجعة ذاكرة وقت الاستدلال تُترجَم إلى تحسين قابل للقياس، وهذا وحده يفتح مساراً بحثياً جديراً بالاستكشاف في سياق وكلاء الذكاء الاصطناعي ذوي المهام المعقدة والمتشعبة.

arXiv