معيار VAKRA يكشف ضعف الوكلاء الذكية في العمل

🎧 استمع للملخص

بقلم: نور | محررة الأبحاث والدراسات · صوت تحريري بإشراف بشري

النماذج الحالية تفشل في 75% من المهام المعقدة. هذا ما كشفه معيار VAKRA الجديد من IBM Research، الذي يختبر الوكلاء الذكية في بيئة تنفيذية تحتوي على 8,187 واجهة برمجة تطبيقات محلية عبر 62 مجالاً، مع مجموعات مستندات متطابقة لكل مجال (وفقاً لـ IBM Research).

على عكس المعايير التقليدية التي تختبر مهارات منعزلة، يقيس VAKRA التفكير التركيبي عبر واجهات برمجة التطبيقات والمستندات، مستخدماً آثار التنفيذ الكاملة لتقييم قدرة الوكلاء على إكمال تدفقات العمل متعددة المراحل. تتطلب المهام سلاسل تفكير من 3-7 خطوات تجمع بين التفاعل المنظم مع واجهات برمجة التطبيقات والاسترجاع غير المنظم تحت قيود استخدام الأدوات باللغة الطبيعية.

أمثلة تمثيلية للقدرات الأربع في معيار VAKRA — القدرات الأربع التي يختبرها VAKRA: من ربط واجهات برمجة التطبيقات إلى التفكير متعدد المصادر

ربط واجهات برمجة التطبيقات للذكاء التجاري: يشمل 2,077 اختباراً عبر 54 مجالاً باستخدام مجموعات SLOT-BIRD وSEL-BIRD المطورة. تتطلب المهام ربط 1-12 استدعاء أداة للوصول للإجابة النهائية. مجموعة SLOT-BIRD توفر 7 أدوات عامة للتلاعب بالبيانات (فلترة، ترتيب)، بينما SEL-BIRD تضيف أدوات متخصصة وتستبدل الدالة العامة retrieve_data بمتحصلات خاصة بالاستعلام بمتوسط 4 دوال get لكل مثيل.
اختيار الأدوات من لوحات القيادة: يضم 1,597 مثيلاً عبر 17 مجالاً باستخدام مجموعة REST-BIRD المطورة. تقدم واجهات نمط نقاط النهاية التي توفر نقاط نهاية محددة ومتطابقة مع الاستعلام تغلف معظم الحوسبة. كل مجال يحتوي على 6-328 أداة بمتوسط 116 أداة، مما يتطلب آلية اختصار لإدارة قيد OpenAI API الذي يحدد قائمة الأدوات بـ 128 أداة كحد أقصى.
التفكير متعدد القفزات باستخدام لوحات القيادة: يحتوي على 869 اختباراً من 38 مجالاً موضوعياً. تتطلب الأسئلة متعددة القفزات استخراج ودمج قطع متعددة من الأدلة الداعمة للوصول لإجابة، مع 1-5 قفزات منطقية لكل استعلام. يُظهر توزيع أنواع الأسئلة تنوعاً في أنماط الاستدلال المطلوبة عبر مجموعة البيانات.
التفكير متعدد القفزات ومتعدد المصادر مع الالتزام بالسياسات: يشمل 644 مثيلاً عبر 41 مجالاً، يضيف فهارس مستندات لكل مجال حيث قد تتطلب الاستعلامات معلومات من هذه الفهارس إضافة لاستدعاءات واجهة برمجة التطبيقات. يطبق المصدر المطلوب على مستوى القفزة، فمثلاً سؤال بثلاث قفزات منطقية قد يتطلب مصادر: API – RAG – API. لضمان الاستدلال الصحيح، تُزال التلوثات من المصادر أثناء توليد البيانات.

المعيار يقدم أيضاً محادثات متعددة الجولات وسياسات استخدام الأدوات بنص طبيعي. مثال على السياسة: “إذا كان استعلام المستخدم يتعلق بالتكنولوجيا والبرمجيات، تأكد من محاولة الإجابة باستخدام مُسترجعات المستندات فقط. لا تستخدم أنواع أدوات أخرى.”

توزيع أنواع القفزات في VAKRA — توزيع أنواع القفزات لقدرات التفكير متعددة المراحل في المعيار

يعتمد إطار التقييم على نهج “الشلال” حيث المراحل المتأخرة مشروطة بنجاح السابقة. للقدرة 4، يُفحص الالتزام بالسياسات برمجياً أولاً، ثم تُقارن سلسلة استدعاء الأدوات المتنبأ بها مع الحقيقة الأساسية. فقط العينات ذات المسارات الصحيحة تنتقل لتقييم الاستجابة النهائية.

بسبب البيئة التنفيذية، يمكن للوكلاء استكشاف البيئة والعودة أحياناً بإجابة عبر استدعاء مجموعة مختلفة من واجهات برمجة التطبيقات عن تلك المحددة في الحقيقة الأساسية. لدعم استدعاءات الأدوات البديلة الصحيحة، تُقيم الصحة بتنفيذ كل أداة متنبأ بها ومقارنة مجموعة استجابات الأدوات بتلك من الحقيقة الأساسية.

النتيجة النهائية تُحسب بوزن متساوٍ للقدرات الأربع: Leaderboard_Score = ¼ ∑(n=1 to 4) Capability_n. للقدرات 1-3، كل عينة لها وزن متساوٍ: Capability = (عدد الاستعلامات الصحيحة / العدد الكلي للاستعلامات). النتائج الأولية تظهر أداءً ضعيفاً للنماذج، مما يكشف الفجوة بين القدرات المختبرة والأداء في البيئات الشبيهة بالمؤسسات.

هذا المعيار يقدم رؤية حادة حول نقاط الضعف الحقيقية للوكلاء الذكية الحالية في سيناريوهات العمل العملية، بعيداً عن الاختبارات السطحية التي تهيمن على المشهد حالياً.

IBM Research