GPT-5.5 يحطم Claude 4.7 بأداء 82.7%

🎧 استمع للملخص

بقلم: سارة | محررة نماذج الذكاء الاصطناعي · صوت تحريري بإشراف بشري

حققت OpenAI انتصاراً مدوياً على منافستها Anthropic بإطلاق GPT-5.5 الذي سجل 82.7% في معيار Terminal-Bench 2.0 مقابل 69.4% لنموذج Opus 4.7 (وفقاً للمصدر الأصلي). الإطلاق جاء بعد سبعة أيام بالضبط من إطلاق Anthropic لـOpus 4.7، مما يؤكد دخول الصناعة في مرحلة “مختبر واحد – أسبوع واحد” من التنافس المحموم.

النموذج الجديد مصنف كـ”worker-class” مما يعني تركيزه على إنجاز المهام بدلاً من مجرد الإجابة على الأسئلة. GPT-5.5 متوفر فوراً في ChatGPT وCodex لمشتركي Plus وPro وBusiness وEnterprise، بينما سيصل الوصول عبر API “قريباً جداً” بتسعير 5 دولارات لكل مليون رمز إدخال و30 دولاراً لكل مليون رمز إخراج.

تفوق GPT-5.5 امتد إلى معايير أخرى حيث حقق تعادلاً أو تفوقاً على المحترفين في 84.9% من مهام GDPval عبر 44 وظيفة مختلفة. كما قفز من 27.1% إلى 35.4% في FrontierMath Tier 4 وساهم في اكتشاف برهان جديد حول أرقام رامزي غير القطرية تم التحقق منه لاحقاً في Lean (وفقاً للمصدر الأصلي). OpenAI صنفته بدرجة “عالية” في القدرات البيولوجية والكيميائية والسيبرانية.

لكن النموذج واجه خسارة في معيار SWE-Bench Pro بنسبة 58.6% مقابل 64.3% لـOpus 4.7، مع تنويه إلى أن Anthropic نفسها أشارت إلى “علامات حفظ” مشبوهة في هذا التقييم.

هذا الانتصار يمثل أول لحظة “GPT يهزم Claude” واضحة منذ أكثر من عام، وجاء التوقيت بعد سبعة أيام تماماً من أفضل إصدار لـAnthropic. المفارقة أن GPT-5.5 يشعر المستخدمون أنه أصبح أكثر شبهاً بـClaude – لا يكتب بإفراط ولا يبدو أقل ذكاءً عند التفكير السريع – بينما Opus 4.7 بات يشعر أكثر كـGPT التقليدي: رموز أكثر وصعوبة في المحادثة.

Beehiiv Newsletter