GPT-5.5 من OpenAI يحدث ثورة في البرمجة والعمل الذكي

🎧 استمع للملخص

بقلم: سارة | محررة نماذج الذكاء الاصطناعي · صوت تحريري بإشراف بشري

كشفت OpenAI النقاب عن GPT-5.5، النموذج الأكثر ذكاءً في تاريخ الشركة والمصمم للتعامل مع المهام المعقدة التي تتطلب تخطيطاً متقدماً واستخدام أدوات متعددة. يمثل هذا الإطلاق نقلة حقيقية في قدرات الذكاء الاصطناعي على العمل بشكل مستقل عبر سياقات مختلفة وإنجاز مهام كاملة دون تدخل مستمر من المستخدم.

ما يميز GPT-5.5 ليس فقط ذكاؤه المتطور، بل قدرته على الحفاظ على نفس سرعة الاستجابة التي يقدمها GPT-5.4 رغم القفزة الهائلة في الأداء. النموذج الجديد يستخدم عدداً أقل من الرموز المميزة لإنجاز نفس المهام، مما يجعله أكثر كفاءة بنصف تكلفة النماذج المنافسة في البرمجة وفقاً لمؤشر الذكاء الاصطناعي من Artificial Analysis.

جدول مقارنة شامل يوضح تفوق GPT-5.5 على النماذج المنافسة في 9 معايير مختلفة — GPT-5.5 يحقق نتائج متفوقة في جميع اختبارات البرمجة والعمل المؤسسي مقارنة بـ Claude و Gemini

في مجال البرمجة الذكية، يحقق GPT-5.5 نتائج استثنائية تضعه في المقدمة. على اختبار Terminal-Bench 2.0 الذي يقيس قدرة النماذج على التعامل مع سير العمل المعقدة في سطر الأوامر، حقق النموذج دقة 82.7% مقارنة بـ 75.1% لـ GPT-5.4 و68.5% لـ Claude Opus 4.7. وفي اختبار SWE-Bench Pro الذي يقيس قدرة النماذج على حل مشاكل GitHub الحقيقية، وصل إلى 58.6%، محققاً تقدماً ملحوظاً في حل المهام من المحاولة الأولى.

أما في اختبار Expert-SWE الداخلي الذي يقيس المهام البرمجية طويلة المدى – تلك التي تستغرق عادة 20 ساعة للمطورين البشر – فإن GPT-5.5 سجل 73.1% مقارنة بـ 68.5% للإصدار السابق. هذا التحسن يظهر بوضوح في قدرة النموذج على فهم بنية الأنظمة المعقدة وتحديد مواقع الأخطاء وتأثيرها على باقي قاعدة الكود.

يصف دان شيبر، مؤسس ومدير Every، تجربته مع النموذج قائلاً: “أول نموذج برمجة استخدمته يتمتع بوضوح مفاهيمي حقيقي”. شيبر اختبر النموذج بطريقة فريدة – أعطاه حالة كود معطلة كان قد أمضى أياماً في تصحيحها قبل أن يستعين بأحد أفضل مهندسيه لإعادة كتابة جزء من النظام. GPT-5.4 لم يتمكن من إنجاز المهمة، لكن GPT-5.5 نجح في إنتاج نفس النوع من إعادة الكتابة التي توصل إليها المهندس.

لقطة شاشة تظهر مثالاً على مهمة برمجية معقدة نفذها GPT-5.5 لإنشاء تطبيق ثلاثي الأبعاد لمهمة أرتيمس الفضائية — مثال على قدرة GPT-5.5 في إنشاء تطبيق ثلاثي الأبعاد متكامل باستخدام WebGL وبيانات ناسا الحقيقية

في العمل المؤسسي والمكتبي، يحقق GPT-5.5 قفزة مماثلة. على اختبار GDPval الذي يقيس قدرة النماذج على إنتاج عمل معرفي عبر 44 مهنة مختلفة، حقق النموذج 84.9% مقارنة بـ 83.0% للإصدار السابق و67.3% لـ Gemini 3.1 Pro. وفي OSWorld-Verified الذي يقيس قدرة النماذج على التعامل مع بيئات الحاسوب الحقيقية، وصل إلى 78.7%.

فرق OpenAI نفسها تستخدم هذه القدرات في سير عملها اليومي. أكثر من 85% من موظفي الشركة يستخدمون Codex أسبوعياً عبر مختلف الوظائف. في قسم الاتصالات، استخدم الفريق GPT-5.5 لتحليل 6 أشهر من بيانات طلبات التحدث وبناء إطار تقييم ومخاطر وتطوير وكيل Slack آلي للتعامل مع الطلبات منخفضة المخاطر. في قسم المالية، راجع الفريق 24,771 استمارة ضريبية K-1 بإجمالي 71,637 صفحة، مما وفر أسبوعين مقارنة بالعام الماضي.

النموذج المتقدم GPT-5.5 Pro يقدم تحسينات إضافية في زمن الاستجابة وجودة المخرجات للمهام المعقدة. المستخدمون الأوائل وجدوا استجابات GPT-5.5 Pro أكثر شمولية ودقة وصلة بالموضوع مقارنة بـ GPT-5.4 Pro، مع أداء قوي بشكل خاص في المجالات التجارية والقانونية والتعليمية وعلوم البيانات.

في مجال البحث العلمي، يظهر GPT-5.5 تحسناً واضحاً في GeneBench، وهو اختبار جديد يركز على التحليل العلمي متعدد المراحل في علم الوراثة والبيولوجيا الكمية. هذه المشاكل تتطلب من النماذج التفكير في بيانات قد تكون غامضة أو تحتوي على أخطاء مع إرشاد إشرافي محدود، والتعامل مع عوائق واقعية مثل العوامل المؤثرة المخفية أو فشل في مراقبة الجودة.

رسم بياني يوضح مقارنة أداء النماذج المختلفة في البحث العلمي والرياضيات المتقدمة — تفوق GPT-5.5 في FrontierMath وGeneBench يؤكد قدراته في البحث العلمي المتقدم

في الرياضيات المتقدمة، حقق GPT-5.5 نتائج مهمة في FrontierMath، وهو اختبار يضم مسائل رياضية في المستوى البحثي. في المستويات 1-3، حقق 51.7% مقارنة بـ 47.6% لـ GPT-5.4، وفي المستوى الرابع الأكثر صعوبة، وصل إلى 35.4% مقارنة بـ 27.1% للإصدار السابق. هذا الأداء يضعه متقدماً على Claude Opus 4.7 الذي حقق 22.9% في المستوى الرابع.

الأمان كان محوراً أساسياً في تطوير GPT-5.5. طبقت OpenAI أقوى مجموعة إجراءات حماية في تاريخها، مصممة لتقليل سوء الاستخدام مع الحفاظ على إمكانية الوصول للأعمال المفيدة. الشركة قيمت النموذج عبر مجموعة كاملة من أطر الأمان والاستعداد، وعملت مع فرق اختبار داخلية وخارجية، وأضافت اختبارات موجهة للقدرات المتقدمة في الأمن السيبراني والبيولوجيا، وجمعت ملاحظات على حالات الاستخدام الحقيقية من حوالي 200 شريك في الوصول المبكر.

يتوفر GPT-5.5 اليوم لمستخدمي Plus وPro وBusiness وEnterprise في ChatGPT و Codex، بينما يتوفر GPT-5.5 Pro لمستخدمي Pro وBusiness وEnterprise في ChatGPT. أما نشر API فيتطلب إجراءات حماية مختلفة، وتعمل OpenAI عن كثب مع الشركاء والعملاء على متطلبات الأمان والحماية لتقديمه على نطاق واسع. ستطرح الشركة GPT-5.5 و GPT-5.5 Pro عبر API قريباً جداً.

التحدي الأساسي يكمن في التوازن بين القدرات المتقدمة ومتطلبات الأمان الصارمة، خاصة في البيئات المؤسسية التي تتطلب مستويات حماية عالية. كما أن انتقال الشركات من الاعتماد على النماذج السابقة إلى GPT-5.5 قد يتطلب وقتاً لضمان التوافق والاستقرار في سير العمل المؤسسي.

OpenAI Blog