Theoria لتحقق استدلال الذكاء الاصطناعي بدقة 97% على GPQA

🎧 استمع للملخص

بقلم: نور | محررة الأبحاث والدراسات · صوت تحريري بإشراف بشري

حين يُخطئ نموذج ذكاء اصطناعي في استدلاله ويُخفي مقدمةً غير مصرح بها داخل سلسلة تفكيره، لا تكتشف ذلك نماذج LLM القاضية بالضرورة — لكن Theoria تكتشفه. هذا هو الادعاء الجوهري الذي يطرحه باحثان من جامعة arXiv في ورقة بحثية نُشرت في الأول من يوليو 2026، تقدّم بنية تحقق جديدة تسد الفجوة بين مثبتات البرهان الرسمية وقضاة LLM الشاملين.

المشكلة التي تعالجها Theoria ليست هامشية. مثبتات البرهان الرسمية كـ Lean وCoq تضمن اليقين الكامل، لكنها تغطي جزءاً ضيقاً جداً من أسئلة العالم الحقيقي. في المقابل، نماذج LLM القاضية — حين تُستخدم للتحقق من صحة إجابات نماذج أخرى — تُنتج درجات غير شفافة لا يمكن مراجعتها لاحقاً، وتقع في الأخطاء الاستدلالية نفسها التي يقع فيها النموذج المُراجَع. (وفقاً للورقة البحثية على arXiv)

تعمل Theoria على مبدأ مختلف جذرياً: تُعيد كتابة الحل المقترح إلى سلسلة من انتقالات الحالة المكتوبة بأنواع محددة، حيث يستلزم كل انتقال تبريراً صريحاً — إما استشهاداً بمرجع، أو حساباً قابلاً للتحقق، أو حقيقة مُعطاة في المسألة. المبدأ الأساسي الذي يسميه الباحثون “اكتمال التغيير” يعني أن كل فرق بين حالتَي برهان متتاليتين يجب تفسيره بالكامل — لا توجد مقدمات مخفية تمر دون ترخيص صريح.

النتائج التي يرويها الباحثان Ben Slivinski وMichael Saldivar تستحق الوقوف عندها بالتفصيل، وهي موزعة على ثلاث بيئات اختبار مختلفة:

على مجموعة HLE-Verified Gold المكونة من 185 مسألة نصية خبراتية، حققت Theoria شهادة لـ 105 مسائل بدقة صارمة بلغت 91.4% (فترة ثقة ويلسون 95%: من 84.5% إلى 95.4%). (وفقاً للورقة البحثية)
على مجموعة 95 برهاناً معادياً مسموماً موزعة على 15 مجالاً، اكتشفت Theoria 94.7% من الأخطاء مقارنةً بـ 83.2% للقضاة الشاملين — بفارق إحصائي واضح (p = 0.0017). (وفقاً للورقة البحثية)
على معيار GPQA Diamond (عينة من 65 مسألة)، بلغت دقة الشهادة 97.1% (فترة ثقة ويلسون: من 85.1% إلى 99.5%). (وفقاً للورقة البحثية)
الفارق الأبرز يتركز في فئتَي خطأ بعينهما: المقدمات المخفية حيث تصل دقة Theoria إلى 90.6% مقابل 62.5% للقضاة الشاملين — أي فارق 28 نقطة مئوية — والاستشهادات المختلقة حيث تبلغ 100% مقابل 90%. (وفقاً للورقة البحثية)
لا يوجد فارق بين الأسلوبين في الأخطاء الحسابية وأخطاء تطبيق النظريات — وهو ما يتوافق مع التنبؤات النظرية للنموذج، مما يُعزز مصداقية النتائج بدلاً من تقليلها. (وفقاً للورقة البحثية)
مقارنة تداخل الأخطاء المكتشفة بين Theoria والقضاة الشاملين أظهرت معامل Jaccard يتراوح بين 0.14 و0.36، مما يعني أن الأسلوبين يخطآن في مسائل مختلفة إلى حد بعيد، وهذا يجعلهما تكامليَّين لا بديلين متنافسين. (وفقاً للورقة البحثية)

ما يجعل هذه النتائج مقنعة هو أن Theoria لا تدّعي تفوقاً مطلقاً. الورقة البحثية تُقرّ صراحةً أن قضاة LLM الشاملين يحققون دقة مماثلة عند تغطية مطابقة — لكنهم يُخطئون في مسائل مختلفة. الفائدة الحقيقية إذن ليست في استبدال أحدهما بالآخر، بل في دمجهما ضمن خط أنابيب تحقق متعدد الطبقات يُطوّق أعمى كل منهما.

من منظور تدقيق الاستدلال، تُنتج كل شهادة من Theoria أثراً برهانياً قابلاً للقراءة البشرية، يمكن تحدي كل خطوة فيه باستقلالية. هذه الشفافية تُعالج أحد أعمق الإشكاليات في تقييم نماذج اللغة الكبيرة: حين يفشل النظام في الماضي، كيف تعود إلى نقطة الإخفاق بالضبط؟ قضاة LLM لا يُجيبون على هذا السؤال. Theoria تدّعي الإجابة عليه.

القيد العملي الأساسي الذي لا تُجيب عليه الورقة بوضوح هو تكلفة الحوسبة وزمن الاستجابة مقارنةً بقضاة LLM الشاملين، وكذلك حدود قدرة النظام على التعامل مع الاستدلال غير الرسمي أو المجالات التي تشح فيها المراجع القابلة للاستشهاد. الاختبار على 185 مسألة فقط يُبقي تساؤلات مشروعة حول الأداء على توزيعات أوسع وأكثر تنوعاً. مع ذلك، فإن الفجوة الـ28 نقطة مئوية في كشف المقدمات المخفية — الفئة الأكثر خطورة لأنها تمر صامتةً — كافية لجعل هذه الورقة إضافةً جديّة لمجال التحقق من استدلال الذكاء الاصطناعي.

arXiv