
بقلم: نور | محررة الأبحاث والدراسات · صوت تحريري بإشراف بشري
فريق Qwen في علي بابا يُطلق Qwen-AgentWorld، وهو ما يصفه الباحثون بأنه أول نموذج عالمي لغوي قادر على محاكاة بيئات الوكلاء الذكيين عبر 7 مجالات مختلفة — لا عبر مهمة واحدة أو اثنتين، بل عبر طيف واسع من تفاعلات العالم الحقيقي. الورقة البحثية المُقدَّمة في 23 يونيو 2026 تُقارب مشكلةً جوهريةً في تدريب الوكلاء: كيف تُدرّب نموذجاً على التصرف في بيئات حقيقية دون أن تُهدر موارد هائلة في التجربة الفعلية؟
الفكرة المحورية هي “نموذج العالم” (World Model)؛ أي نموذج يستطيع التنبؤ بما سيحدث في البيئة بناءً على الحالة الراهنة والإجراء المُتخذ، فيعمل كمحاكٍ افتراضي يُغني عن الحاجة للتفاعل المستمر مع الواقع. هذا النهج ليس جديداً في نظرية التعلم المعزز، لكن تطبيقه على نماذج لغوية كبيرة بهذا النطاق — (وفقاً للبحث) — هو ما يُميّز هذا العمل.
جاء النموذجان بحجمَين مختلفَين: Qwen-AgentWorld-35B-A3B وQwen-AgentWorld-397B-A17B، وكلاهما مبنيّ على بنية mixture-of-experts لتحقيق توازن بين الأداء والكفاءة الحسابية. أما التدريب فقد استند إلى أكثر من 10 ملايين مسار تفاعل بيئي من العالم الحقيقي عبر المجالات السبعة ذاتها (وفقاً للبحث).
ما يستحق الوقوف عنده هو خط التدريب المُكوَّن من ثلاث مراحل متتالية: تبدأ بـ CPT (التدريب المسبق المستمر) الذي يُرسّخ قدرات النمذجة العالمية العامة انطلاقاً من ديناميكيات الانتقال بين الحالات والمتن المهني المُعزَّز، ثم تأتي مرحلة SFT (الضبط الدقيق الخاضع للإشراف) لتفعيل قدرة التنبؤ بالحالة التالية عبر سلاسل تفكير طويلة، وأخيراً يأتي التعلم المعزز RL لصقل دقة المحاكاة من خلال إطار مُخصَّص يجمع بين مكافآت القواعد والمعايير الهجينة. هذا التسلسل الثلاثي ليس مجرد اختيار هندسي؛ بل يعكس فلسفةً واضحة في بناء النماذج: من العام إلى الخاص إلى الدقيق.
لقياس الأداء، طوّر الفريق معياراً جديداً أسموه AgentWorldBench، وُلد من تفاعلات حقيقية لـ5 نماذج حدودية على 9 معايير تقييم راسخة (وفقاً للبحث). النتائج التجريبية تُشير إلى أن Qwen-AgentWorld يتفوق على النماذج الحدودية الموجودة في هذه المهمة التحديداً، وهو ادعاء يستحق التمحيص عند توفر التقييمات المستقلة.
الباحثون لا يكتفون بطرح نموذج محاكاة، بل يستكشفون توظيفَين مكمّلَين لقدرات النمذجة العالمية:
- كمحاكٍ بيئي منفصل: يُتيح محاكاة آلاف البيئات الحقيقية بشكل قابل للتوسع والتحكم، مما يُعزز التدريب بالتعلم المعزز RL للوكلاء ويُحقق مكاسب تتجاوز التدريب في البيئات الحقيقية وحدها (وفقاً للبحث).
- كنموذج أساس موحّد للوكيل: حيث يعمل تدريب النمذجة العالمية “warm-up” فعّالاً للغاية، يُحسّن الأداء النهائي عبر 7 معايير تقييم للوكلاء في مرحلة ما بعد التدريب الأساسي (وفقاً للبحث).
هذا التمييز بين التوظيفَين مهم عملياً: في الأول يبقى النموذج العالمي أداةً مساعدة منفصلة عن الوكيل، وفي الثاني يصبح جزءاً من بنية الوكيل ذاته. الفارق ليس تقنياً فحسب، بل يعني أن المطورين أمام خيارَين معماريَّين مختلفَين عند بناء وكلائهم.
من منظور تنافسي، يأتي هذا العمل في سياق تصاعد حدة المنافسة بين المختبرات على بناء وكلاء قادرين على التخطيط طويل الأمد وتنفيذ مهام متعددة الخطوات. ما يُفرّق Qwen-AgentWorld هو المزج الصريح بين محاكاة البيئة واستخدامها مساراً مباشراً لتحسين أداء الوكلاء — لا مجرد تقييم ما إذا كان الوكيل يعرف إجابةً صحيحة. والكود مُتاح للباحثين عبر الرابط المُدرَج في الورقة، مما يُفتح الباب أمام المجتمع للتحقق من هذه الادعاءات بصورة مستقلة. وإذا كنت تتابع ملف علي بابا مع أنثروبيك، فإن هذا البحث يُقدّم صورةً أوضح لجدية فريق Qwen في بناء قدراته الخاصة بعيداً عن أي جدل خارجي.







