إطار AVISE لتقييم أمان نماذج الذكاء الاصطناعي بدقة 92%

🎧 استمع للملخص

بقلم: نور | محررة الأبحاث والدراسات · صوت تحريري بإشراف بشري

وضع باحثون من جامعات فنلندية إطار عمل جديد يُدعى AVISE لتحديد الثغرات الأمنية في أنظمة الذكاء الاصطناعي وتقييم قدرتها على مقاومة الهجمات، مع التركيز بشكل خاص على نماذج اللغة الكبيرة والتقنيات المتطورة لكسر قيودها الأمنية (وفقاً لأرشيف arXiv).

يشكل الإطار المفتوح المصدر خطوة عملية نحو تطوير معايير موحدة لقياس مقاومة أنظمة الذكاء الاصطناعي للتهديدات الأمنية، خاصة مع انتشارها في قطاعات حساسة كالرعاية الصحية والمالية والدفاعية، وقد اختبر الباحثون قوة تسعة نماذج لغوية حديثة واكتشفوا قابليتها جميعاً للاختراق بدرجات متفاوتة.

كيف يعمل النظام الآلي للكشف عن الثغرات

طور الباحثون آلية تقييم أمني آلي تُسمى Security Evaluation Test تضم 25 اختباراً مختلفاً لمحاولة كسر قيود النماذج اللغوية، بالإضافة إلى نموذج تقييم منفصل يُدعى Evaluation Language Model يحدد ما إذا نجح كل اختبار في تجاوز الحواجز الأمنية للنموذج المستهدف.

حقق نموذج التقييم دقة وصلت إلى 92% في تحديد نجاح محاولات الاختراق، مع نتيجة F1 بلغت 0.91 ومعامل ارتباط ماثيوز عند 0.83 (وفقاً للورقة البحثية)، مما يظهر قدرة النظام على التمييز بدقة عالية بين المحاولات الناجحة والفاشلة.

هجوم “الملكة الحمراء” المطور والنتائج المقلقة

استخدم الباحثون تقنية متطورة تُعرف بهجوم “Red Queen” المعزز بنموذج لغوي معادي، والتي تعتمد على نظرية العقل لفهم كيفية تفكير النموذج المستهدف ومن ثم استغلال نقاط ضعفه عبر محادثات متعددة الأدوار تتطور تدريجياً لتجاوز دفاعاته.

عند اختبار تسعة نماذج لغوية متنوعة الأحجام والقدرات، اكتشف الفريق أن جميعها بلا استثناء كانت عرضة للهجوم المطور بدرجات مختلفة، مما يشير إلى وجود نقاط ضعف منهجية في الطريقة التي تُصمم بها هذه الأنظمة حالياً.

التطبيق العملي والقيود

يمكن للباحثين وممارسي الصناعة استخدام AVISE كأساس قابل للتوسيع لتطوير اختبارات أمنية مخصصة، حيث يتيح الإطار المعياري إضافة أنواع جديدة من الهجمات وطرق التقييم حسب طبيعة التطبيق المستهدف.

لكن الإطار يواجه تحديات عملية مهمة تشمل الحاجة لتحديث مستمر مع ظهور تقنيات هجوم جديدة، والتوازن بين شمولية الاختبارات وسرعة التنفيذ، بالإضافة إلى ضرورة تدريب فرق التطوير على استخدام النتائج لتحسين الدفاعات الأمنية بدلاً من مجرد اكتشاف نقاط الضعف.

يأتي هذا التطوير وسط تصاعد القلق من انتشار أدوات jailbreaking والتقنيات المتقدمة لخداع أنظمة الذكاء الاصطناعي، خاصة مع اعتماد الشركات والحكومات المتزايد على هذه التقنيات في اتخاذ قرارات حساسة تتطلب مستويات أمان عالية.

ArXiv