معيار LongCoT يكشف انهيار GPT-5 في التفكير المعقد

🎧 استمع للملخص

بقلم: نور | محررة الأبحاث والدراسات · صوت تحريري بإشراف بشري

9.8% فقط — هذا ما حققه GPT-5.2 في معيار LongCoT الجديد لقياس التفكير الطويل المدى، بينما سجل Gemini 3 Pro نتيجة أسوأ بـ6.1% فقط (وفقاً لدراسة ArXiv). هذه النتائج المذهلة تكشف أن النماذج التي نعتبرها “متطورة” تنهار تماماً عندما تواجه مهام تتطلب تفكيراً متسلسلاً معقداً.

طور فريق من 20 باحثاً بقيادة Sumeet Ramesh Motwani معياراً جديداً يحتوي على 2,500 مسألة مصممة بعناية فائقة عبر خمسة مجالات: الكيمياء والرياضيات وعلوم الحاسوب والشطرنج والمنطق. كل مسألة تبدأ بمدخل قصير وتنتهي بإجابة قابلة للتحقق، لكن الوصول إليها يتطلب التنقل عبر شبكة من الخطوات المترابطة التي تمتد لعشرات أو مئات الآلاف من الرموز المنطقية.

الجانب الأكثر إثارة للقلق هو أن كل خطوة فردية في هذه المسائل قابلة للحل بسهولة بواسطة النماذج الحالية. المشكلة تكمن في عدم قدرتها على ربط هذه الخطوات في سلسلة منطقية متماسكة والحفاظ على دقة التفكير عبر عمليات ممتدة. هذا يعني أن الفشل ليس في فهم المفاهيم، بل في إدارة التعقيد المتراكم.

انهيار شبه كامل في الأداء: أفضل النماذج المتاحة حالياً تفشل في أكثر من 90% من المسائل، مع تحقيق GPT-5.2 لـ9.8% دقة وGemini 3 Pro لـ6.1% فقط
تصميم علمي دقيق: 2,500 مسألة موزعة عبر خمسة مجالات متخصصة، كل منها يتطلب ملاحة معقدة عبر خطوات مترابطة تمتد لآلاف الرموز
اختبار القدرة الفعلية: كل خطوة فردية قابلة للحل بواسطة النماذج الحالية، لكن الفشل يحدث في ربط الخطوات وإدارة التعقيد المتراكم
فجوة حقيقية في التطبيق: النتائج تكشف عدم جاهزية النماذج الحالية للمهام المعقدة والمستقلة التي تتطلب تخطيطاً استراتيجياً
أداة قياس مستقبلية: المعيار مصمم ليكون قابلاً للتوسع مع تطور النماذج، مما يتيح تتبع التقدم في هذه القدرة الحرجة

هذه النتائج لها تداعيات خطيرة على مستقبل استخدام الذكاء الاصطناعي في التطبيقات الحقيقية. من البحث العلمي المعقد إلى حل المسائل الهندسية متعددة المراحل، من التخطيط الاستراتيجي للشركات إلى التشخيص الطبي المتقدم — كل هذه المجالات تتطلب بالضبط ما تفشل فيه النماذج الحالية: القدرة على الحفاظ على التماسك المنطقي عبر عمليات تفكير طويلة ومعقدة.

الأمر المثير للاهتمام أن هذا المعيار يأتي في وقت تتنافس فيه الشركات الكبرى على تطوير “وكلاء ذكيين” قادرين على أداء مهام معقدة بشكل مستقل. لكن نتائج LongCoT تشير إلى أننا ما زلنا بعيدين جداً عن هذا الهدف، وأن التحسينات المطلوبة ليست تدريجية بل جذرية وأساسية.

ArXiv