MathNet قاعدة البيانات الرياضية تتحدى الذكاء الاصطناعي

🎧 استمع للملخص

بقلم: نور | محررة الأبحاث والدراسات · صوت تحريري بإشراف بشري

تكافح أقوى نماذج الذكاء الاصطناعي الحالية لحل مسائل الرياضيات المعقدة، حيث حقق Gemini-3.1-Pro نسبة نجاح 78.4% فقط في مسائل الأولمبياد، بينما وصل GPT-5 إلى 69.3% (وفقاً لورقة MathNet البحثية). هذه النتائج المفاجئة كشفتها قاعدة البيانات الجديدة MathNet التي أطلقها فريق بحثي دولي لقياس قدرات التفكير الرياضي والاستخراج في الأنظمة الذكية.

يمثل MathNet أكبر قاعدة بيانات مفتوحة المصدر لمسائل الرياضيات الأولمبية، حيث تضم 30,676 مسألة من مسابقات تمتد عبر عقدين من الزمن في 47 دولة و17 لغة. كل مسألة مكتوبة بواسطة خبراء رياضيات ومرفقة بحلولها الكاملة، مما يجعلها أول معيار شامل لتقييم قدرات الاستدلال الرياضي في النماذج متعددة الوسائط.

حل المسائل الرياضية: اختبار قدرة النماذج على فهم وحل مسائل معقدة تتطلب تفكيراً منطقياً متقدماً
الاستخراج المدرك للرياضيات: قياس قدرة أنظمة الاستخراج على العثور على مسائل متشابهة رياضياً أو مكافئة هيكلياً
حل المسائل المعزز بالاستخراج: دمج تقنيات استخراج المعلومات مع حل المسائل لتحسين الأداء

النتائج التجريبية تكشف تحدياً حقيقياً حتى للنماذج المتقدمة. في المهمة الثانية، تواجه نماذج الاستخراج القائمة على التضمين صعوبات كبيرة في العثور على مسائل مكافئة رياضياً، رغم أن خبراء بشريين قاموا بتنسيق أزواج المسائل المتشابهة يدوياً لضمان الدقة.

الأكثر إثارة للاهتمام هو أن جودة الاستخراج تؤثر بشكل كبير على أداء الحل المعزز. نموذج DeepSeek-V3.2-Speciale حقق تحسناً يصل إلى 12% عندما تم دعمه بنتائج استخراج عالية الجودة، ليصبح النموذج الأفضل أداءً في المعيار (وفقاً لنتائج الدراسة).

تضع قاعدة MathNet معياراً جديداً للبحث في الذكاء الاصطناعي، خاصة مع تنوعها اللغوي والثقافي الذي يتجاوز المعايير المحدودة السابقة. الفريق البحثي، بقيادة شدن الشمري وكيفين وين، يخطط لتحديث القاعدة دورياً بمسائل جديدة من مسابقات رياضية إضافية.

يمكنك الوصول لقاعدة البيانات الكاملة والمعيار مفتوح المصدر عبر الموقع الرسمي للمشروع، حيث ستجد كل ما تحتاجه لبدء تجربة نماذجك الخاصة على هذا التحدي الرياضي الجديد.

ArXiv