أخبار الذكاء الاصطناعي

إطلاق EVMbench لاختبار ذكاء العقود الذكية

معيار جديد يقيس قدرة النماذج على اكتشاف ثغرات العقود الذكية وتصحيحها واستغلالها في بيئات بلوكتشين تجريبية.

أُعلن عن إطلاق EVMbench، وهو معيار تقني جديد يقيّم قدرة وكلاء الذكاء الاصطناعي على اكتشاف الثغرات عالية الخطورة في العقود الذكية، وتصحيحها، بل وحتى استغلالها ضمن بيئة بلوكتشين معزولة. ويأتي المشروع بالتعاون مع شركة Paradigm، في خطوة تهدف إلى قياس جاهزية النماذج المتقدمة في بيئات مالية تحمي أصولًا تتجاوز قيمتها 100 مليار دولار.

ويعتمد EVMbench على 120 ثغرة مُنسّقة مستمدة من 40 عملية تدقيق أمني، معظمها من مسابقات مراجعة الشيفرة مفتوحة المصدر، إضافة إلى سيناريوهات مرتبطة بتدقيق أمني لسلسلة Tempo، وهي شبكة من الطبقة الأولى صُممت لدعم مدفوعات مستقرة عالية السرعة ومنخفضة التكلفة.

ثلاثة أوضاع تقييم رئيسية

يقيس المعيار أداء النماذج عبر ثلاثة أنماط:

  • Detect (الاكتشاف): فحص مستودعات العقود الذكية وقياس قدرة النموذج على استرجاع الثغرات المؤكدة.

  • Patch (الإصلاح): تعديل العقود لإزالة القابلية للاستغلال مع الحفاظ على الوظائف الأصلية، والتحقق عبر اختبارات آلية.

  • Exploit (الاستغلال): تنفيذ هجمات لسحب الأموال في بيئة بلوكتشين تجريبية، مع تقييم النتائج عبر إعادة تشغيل المعاملات والتحقق على السلسلة.

ولضمان التقييم الموضوعي، طُوّر إطار عمل بلغة Rust ينشر العقود ويعيد تشغيل المعاملات بشكل حتمي، مع تقييد واجهات الاستدعاء غير الآمنة. وتُنفّذ اختبارات الاستغلال داخل بيئة Anvil محلية معزولة بدل الشبكات الحية.

نتائج أولية للنماذج المتقدمة

في وضع “الاستغلال”، حقق نموذج GPT-5.3-Codex عبر Codex CLI نتيجة بلغت 72.2%، مقارنة بـ 31.9% لنموذج GPT-5 قبل ستة أشهر. في المقابل، لا تزال معدلات النجاح في الاكتشاف والإصلاح دون التغطية الكاملة، إذ تواجه النماذج صعوبة في فحص الشيفرة بشكل شامل أو إزالة الثغرات الدقيقة دون التأثير على الوظائف.

وأظهرت النتائج أن النماذج تؤدي أفضل عندما يكون الهدف واضحًا ومباشرًا، كما في سيناريو الاستغلال، بينما تنخفض الكفاءة في مهام التدقيق الشامل أو الإصلاح المعقد.

قيود منهجية

يشير مطورو EVMbench إلى أن المعيار لا يعكس كامل تعقيد أمن العقود الذكية في العالم الحقيقي. فالثغرات المختارة تعود إلى مسابقات Code4rena، في حين تخضع العقود واسعة الانتشار لتدقيق أكثر صرامة.

كما أن نظام التقييم في وضع “الاكتشاف” يعتمد على مطابقة نتائج المدققين البشريين، ما يصعّب تقييم الثغرات الإضافية التي قد يكتشفها النموذج. أما في وضع “الاستغلال”، فإعادة تشغيل المعاملات تتم بشكل تسلسلي، ما يستبعد سيناريوهات تعتمد على التوقيت الدقيق أو البيئات متعددة السلاسل.

أهمية مزدوجة للأمن السيبراني

يرى مطورو المشروع أن قياس قدرات الذكاء الاصطناعي في هذا المجال ضروري، نظرًا للطبيعة مزدوجة الاستخدام للأمن السيبراني. فالتقدم في قدرات النماذج قد يخدم المدافعين والمهاجمين على حد سواء.

وفي هذا السياق، أُعلن عن تخصيص 10 ملايين دولار على شكل أرصدة API لدعم مشاريع الدفاع السيبراني، خاصة في البرمجيات مفتوحة المصدر والبنية التحتية الحيوية. كما يجري توسيع النسخة التجريبية الخاصة من وكيل البحث الأمني “Aardvark”، إلى جانب توفير خدمات فحص مجانية لبعض المشاريع واسعة الاستخدام.

ويُطرح EVMbench كأداة قياس ودعوة لاعتماد التدقيق المدعوم بالذكاء الاصطناعي ضمن سير العمل الأمني، مع نشر المهام وأدوات التقييم لدعم البحث المستمر في إدارة المخاطر السيبرانية المرتبطة بالنماذج المتقدمة.


📌 الملخص:
إطلاق EVMbench لتقييم قدرة وكلاء الذكاء الاصطناعي على اكتشاف واستغلال ثغرات العقود الذكية في بيئات بلوكتشين معزولة.
المعيار يكشف تحسنًا ملحوظًا في أداء النماذج المتقدمة، مع استمرار تحديات في الاكتشاف والإصلاح.

مقالات ذات صلة

زر الذهاب إلى الأعلى