اختبار الذكاء الاصطناعي ASSERT من مايكروسوفت مفتوح المصدر

🎧 استمع للملخص

بقلم: ليلى | محررة أدوات المطورين · صوت تحريري بإشراف بشري

بعد أن تقدم الباحثون بخطوات واسعة في تقييم نماذج الذكاء الاصطناعي للسلامة والامتثال والانحياز، تواجه الشركات والمطورون الآن تحدٍ أكثر تحديداً: كيف نضمن أن أنظمة الذكاء الاصطناعي تتصرف تماماً كما نريد في سياق منتجاتنا وخدماتنا المحددة؟

أطلقت مايكروسوفت الثلاثاء ASSERT (Adaptive Spec-driven Scoring for Evaluation and Regression Testing)، إطار عمل مفتوح المصدر صُمم لحل هذه المعضلة عبر تحويل أوصاف السلوك المطلوب بالنص العادي إلى اختبارات دقيقة ومُسجّلة.

الفكرة بسيطة لكنها قوية: بدلاً من كتابة كود معقد لفحص سلوك النظام، تكتب بلغة طبيعية ما تريد أن يفعله وما لا تريد أن يفعله. ASSERT يتولى الباقي. على سبيل المثال، يمكن للمطور أن يحدد أن “وكيل البحث في الوثائق لا يُرسل إيميلات لأشخاص خارج الشركة، ويقتصر في مشاركة المعلومات السرية على المدراء التنفيذيين، ويقدم ملخصات موجزة مع مراعاة السياق السابق” (وفقاً لـ TechCrunch).

الآلية تعمل في خمس مراحل أساسية: يأخذ ASSERT هذه الأوصاف النصية ويحولها إلى مجموعة منظمة من السلوكيات المقبولة وغير المقبولة، ثم يولد سيناريوهات مشاكل وحالات اختبار، يشغلها على النظام المستهدف، ويُسجل النتائج. الأهم من ذلك، يمكنه رصد المسارات التي يسلكها النظام، بما في ذلك الإجراءات الوسطية واستدعاءات الأدوات، لتمكين المطورين من فحص مواضع الإخفاق بدقة.

مخطط يوضح كيفية عمل إطار ASSERT في تحويل الوصف النصي إلى اختبارات مُسجّلة — مخطط توضيحي لآلية عمل إطار ASSERT من مايكروسوفت

يمكن للمطورين أيضاً توفير سياق النظام والأدوات والقيود إذا أرادوا تخصيص نطاق التقييمات أكثر. هذا المستوى من التخصيص ضروري عندما يعمل النظام في بيئة معقدة مع قواعد عمل محددة أو متطلبات تنظيمية صارمة.

تقول سارة بيرد، مدير منتجات الذكاء الاصطناعي المسؤول في مايكروسوفت: “أحد الأشياء التي تعلمناها هو أن التقييمات ضرورية تماماً لاتخاذ قرارات جيدة. لأنه إذا كنت لا تفهم سلوك نظام الذكاء الاصطناعي، فمن الصعب حقاً معرفة ما إذا كان يلبي معايير منظمتك… ما وجدناه هو أنه إذا كنت تريد حقاً نظاماً جديراً بالثقة، يجب أن تُقيم أبعاداً أكثر بكثير خاصة بالتطبيق”.

بيرد أكدت أن ASSERT يمكن استخدامه لتقييم الأنظمة أثناء بنائها، بعد النشر، وحتى للمراقبة المستمرة. هذه المرونة تجعله أداة قيمة للفرق التي تعمل في بيئات إنتاج ديناميكية حيث قد تتغير المتطلبات أو تظهر حالات حافة جديدة.

الإطلاق يأتي وسط تحول تدريجي لكنه أوسع في صناعة الذكاء الاصطناعي. مع نضج النماذج وزيادة قدراتها، يركز الباحثون على اختبارات قابلة للتكرار وفحوصات التراجع، مع مبادرات مثل Stanford’s HELM و MLCommons’ AILuminate ومجموعات التقييم مثل METR التي تطور معايير لقياس كيفية تصرف النماذج في ظروف مختلفة.

ما يميز ASSERT هو تركيزه على سد الفجوة التي لا تستطيع التقييمات الأوسع والأكثر عمومية ملؤها عندما تكون النماذج مصممة للتصرف بطريقة تُشكلها سياق التطبيق أو المنتج وسياساته وأدواته. مطور يبني مساعد ذكي للموارد البشرية يواجه تحديات مختلفة تماماً عن زميل يطور نظام تحليل مالي أو منصة تعليمية.

الإطار متاح على GitHub كمشروع مفتوح المصدر، مما يعني أن الفرق يمكنها تخصيصه وتوسيعه بالكامل حسب احتياجاتها الخاصة. لكن هناك قيد واضح: ASSERT فعّال بقدر وضوح وشمولية الأوصاف النصية التي تُدخلها. إذا لم تكن دقيقاً في تحديد ما تريد، ستحصل على اختبارات غير دقيقة أيضاً.

TechCrunch