
اختبار ARC-AGI-3 يكشف ضعف الذكاء الاصطناعي في التفكير
أطلق باحثون اختباراً جديداً يُسمى ARC-AGI-3 مصمم لقياس قدرة أنظمة الذكاء الاصطناعي على التفكير التفاعلي، والنتيجة صادمة: جميع نماذج الذكاء الاصطناعي المتقدمة حالياً تحل أقل من 1% من المسائل التي يحلها الإنسان العادي بسهولة.
الرقم الأبرز
الاختبار يحتوي على مئات البيئات التفاعلية التي تتطلب التفكير المنطقي، و100% من هذه البيئات قابلة للحل من قِبل الإنسان العادي عند رؤيتها للمرة الأولى دون أي تدريب مسبق. لكن أفضل نماذج الـ LLM الحالية — بما فيها GPT-4 وClaude — تعجز عن حل أكثر من 1% منها.
هذا الرقم يكشف فجوة هائلة بين ما تستطيع هذه الأنظمة فعله في اختبارات النصوص التقليدية، وبين قدرتها على التفكير المنطقي في بيئات جديدة تماماً.
ماذا يعني هذا؟
الاختبار مصمم لقياس ما يُسمى “الذكاء الوكيل” (Agentic Intelligence) — أي قدرة النظام على فهم بيئة جديدة والتفاعل معها بذكاء دون تدريب مسبق. هذا النوع من التفكير ضروري لبناء أنظمة ذكاء اصطناعي عام حقيقية.
المفارقة أن هذه النماذج قادرة على كتابة كود معقد وإنتاج نصوص مقنعة، لكنها تفشل في حل ألغاز منطقية بسيطة يحلها طفل في السابعة من عمره. السبب أنها تعتمد على حفظ أنماط من بيانات التدريب بدلاً من التفكير الحقيقي.
النتيجة الأهم هنا ليست الرقم بحد ذاته، بل ما يكشفه عن طبيعة “الذكاء” في النماذج الحالية — إنه ذكاء ظاهري مبني على الإحصائيات، وليس فهماً حقيقياً.
وماذا يعني للمنطقة العربية؟
بالنسبة لمطور في الرياض أو شركة ناشئة في دبي تعتمد على الذكاء الاصطناعي، هذا تذكير مهم بحدود التقنية الحالية. الأنظمة الحالية ممتازة للمهام المحددة والمتكررة، لكنها لا تستطيع “التفكير” بالمعنى الحقيقي.
هذا يعني أن الاستثمار في حلول الذكاء الاصطناعي يجب أن يكون محدود النطاق ومُوجَّه نحو مشاكل واضحة، وليس توقع معجزات من هذه التقنيات في المهام التي تتطلب تفكيراً إبداعياً أو منطقياً معقداً.



