نظام SLIM يدير المهارات الخارجية للوكلاء الذكيين

بقلم: نور | محررة الأبحاث والدراسات · صوت تحريري بإشراف بشري

وكلاء الذكاء الاصطناعي المبنية على نماذج اللغة الكبيرة تواجه معضلة حقيقية: كيف تقرر أي المهارات الخارجية تحتفظ بها وأيها تتخلى عنها؟ فريق بحثي من جامعة هونغ كونغ للعلوم والتكنولوجيا طور حلاً يسمى SLIM يعيد تعريف كيفية تعامل هذه الأنظمة مع مهاراتها.

المشكلة الجوهرية أن الطرق التقليدية تفترض سيناريوهين فقط للمهارات الخارجية: إما تتراكم كتوجيهات دائمة، أو تُدمج كلياً في النموذج الأساسي حتى تصل لمرحلة “الاستنتاج بدون مهارات”. لكن هذا الافتراض مقيد جداً لأن القدرة المعلمية للنماذج محدودة، والمساهمة الحدية للمهارات غير متساوية، مما يعني أن المجموعة المثلى للمهارات النشطة تعتمد على المهمة والمرحلة وليست ثابتة.

SLIM يعالج هذا التحدي من خلال التعامل مع مجموعة المهارات الخارجية النشطة كـمتغير تحسين ديناميكي يُحدث بالتزامن مع تعلم السياسة. النظام يقدر المساهمة الخارجية الحدية لكل مهارة نشطة عبر تقنية “leave-one-skill-out validation” – أي تجريب الأداء بدون كل مهارة على حدة لقياس تأثيرها الفعلي.

الاحتفاظ (Retaining): المهارات عالية القيمة التي تحقق مساهمة حدية كبيرة تبقى في المجموعة النشطة
التقاعد (Retiring): المهارات التي تصبح مساهمتها ضئيلة بعد التعرض الكافي لها تُحذف لتوفير مساحة
التوسع (Expanding): إضافة مهارات جديدة لبنك المهارات عندما يكشف الفشل المستمر عن نقص في تغطية القدرات
إعادة التقييم المستمر: كل دورة تدريب تعيد حساب القيمة الحدية لكل مهارة
التحسين المتزامن: تعديل مجموعة المهارات يحدث بالتوازي مع تحديث السياسة

النتائج التجريبية مثيرة للإعجاب: SLIM تفوق على أفضل الطرق الأساسية بمتوسط 7.1 نقطة مئوية (وفقاً لـ ArXiv) عبر بيئتي ALFWorld وSearchQA. ALFWorld تركز على المهام التفاعلية في بيئات محاكاة، بينما SearchQA تختبر قدرات البحث والإجابة على الأسئلة المعقدة.

الاكتشاف الأهم أن تعلم السياسة والاحتفاظ بالمهارات الخارجية ليسا متناقضين. النتائج تشير إلى أن بعض المهارات تُمتص تدريجياً في السياسة الأساسية، بينما تستمر مهارات أخرى في تقديم قيمة خارجية حتى بعد دورات تدريب مكثفة. هذا يدعم SLIM كنموذج أكثر عمومية للتعلم المعزز القائم على الوكلاء المهارية.

التطبيقات العملية واعدة خاصة في تطوير مساعدات ذكية قادرة على التكيف. تخيل مساعد ذكي يعرف متى يحتفظ بمهارة تحليل البيانات المالية لأنك تستخدمها كثيراً، ومتى يتخلى عن مهارات الطبخ لأنه تعلمها داخلياً، ومتى يضيف مهارات جديدة عندما تبدأ هواية جديدة.

الفريق البحثي بقيادة Junhao Shen وTeng Zhang وXiaoyan Zhao وHong Cheng (وفقاً لـ ArXiv) يؤكد أن النهج قابل للتطبيق على مجالات متنوعة من الروبوتات إلى الألعاب الذكية والأتمتة المنزلية.

لكن التحدي الرئيسي يكمن في تحسين كفاءة خوارزميات تقييم المساهمة الحدية عند التعامل مع مجموعات مهارات أكبر حجماً. كما أن قياس “القيمة الحدية” لمهارة معقدة ليس بالأمر البسيط ويحتاج لمقاييس أكثر دقة من مجرد الأداء في مهمة واحدة.

ArXiv