Claude Sonnet 5 يُعيد تعريف النماذج الوكيلة بأداء عالٍ

🎧 استمع للملخص

بقلم: سارة | محررة نماذج الذكاء الاصطناعي · صوت تحريري بإشراف بشري

أطلقت Anthropic اليوم نموذج Claude Sonnet 5، وهو التحديث الأكثر أهمية في سلسلة Sonnet حتى الآن، مع تحسينات جوهرية في قدرات الوكلاء المستقلين تُبقي فجوة الأداء مع Opus 4.8 ضيقة للغاية، لكن بتكلفة أقل بكثير. النموذج متاح فوراً لجميع خطط Claude، ويُعدّ الآن النموذج الافتراضي لمستخدمي الخطتين Free وPro.

منذ Claude Sonnet 3.5، كانت نماذج Sonnet هي الشرارة التي أشعلت عصر وكلاء الذكاء الاصطناعي للمطورين: أداء لافت في البرمجة واستخدام الأدوات بسعر معقول. لكن مع الوقت، انتقلت أبرز قفزات الأداء الوكيلي إلى نماذج Opus الأثقل والأغلى. Sonnet 5 يُعيد التوازن: وفقاً (لـ Anthropic)، فإن أداءه في الاستدلال واستخدام الأدوات والبرمجة والعمل المعرفي يقترب من Opus 4.8 بفارق واضح في السعر، مع تحسّن جلي على Sonnet 4.6 عبر كل هذه المحاور.

ما يُميّز هذا الإصدار تحديداً هو تصميمه حول نمط العمل المستقل متعدد الخطوات. شركاء الوصول المبكر وصفوا النموذج بأنه يُنهي المهام المركّبة التي كانت نماذج Sonnet السابقة تتوقف في منتصفها، ويراجع مخرجاته تلقائياً دون أن يُطلب منه ذلك. من الأمثلة الحرفية التي وردت في إعلان الإطلاق: وكيل طُلب منه تحديث تصنيفات حسابات Salesforce وإرسال إشعارات إطلاق لعملاء المؤسسات أنجز المهمتين كاملتين، وهو ما كان “يتعثر في المنتصف” مع النماذج السابقة. وتحدّث مستخدم آخر عن أنه طلب من النموذج التحقيق في خطأ برمجي، فكتب النموذج تلقائياً اختباراً لإعادة إنتاج الخطأ، نفّذ الإصلاح، ثم حذف الإصلاح مؤقتاً للتحقق من أن الخطأ يعود بدونه، كل ذلك في تشغيل واحد. شركة ClickHouse أشارت إلى أن النموذج “يستدل بخطوات أكثر إحكاماً” ويُوصل المستخدمين إلى الإجابات بسرعة يلاحظها العملاء، بينما وصفت شركة Lovable الأمر بأنه “نفس جودة المخرجات بخطوات أقل”.

أداء Sonnet 5 على معياري BrowseComp للبحث الوكيلي وOSWorld-Verified لاستخدام الكمبيوتر يكشف عن صورة دقيقة: منحنيات التكلفة-الأداء عند مستويات جهد مختلفة تُظهر Sonnet 5 كتحسّن صارم على Sonnet 4.6، فيما يُغطّي Sonnet 5 وOpus 4.8 معاً نطاقاً متصلاً للأداء، وهو ما لم يكن ممكناً من قبل حين كانت Sonnet 4.6 تقع خارج المنافسة الجدية مقابل Opus. الفكرة العملية هنا: المطوّر يستطيع اليوم الاختيار بين نموذجين متكاملين بدلاً من القفز بين فئتين منفصلتين.

على صعيد التسعير، يُطلق النموذج بسعر تمهيدي $2 لكل مليون رمز إدخال و$10 لكل مليون رمز إخراج وذلك حتى 31 أغسطس 2026، يرتفع بعدها إلى $3 للإدخال و$15 للإخراج (وفقاً لـ Anthropic). في المقابل، يُسعَّر Opus 4.8 بـ$5 للإدخال و$25 للإخراج. تجدر الإشارة إلى أن Sonnet 5 يستخدم محرف tokenizer مُحدَّث يُغيّر طريقة معالجة النص، وقد تزيد الرموز المستهلكة للإدخال الواحد بمعامل يتراوح بين 1.0 و1.35 مقارنةً بـSonnet 4.6 حسب نوع المحتوى، وهو ما أُخذ بعين الاعتبار في السعر التمهيدي لجعل الانتقال “محايداً تقريباً من حيث التكلفة”. يمكن الوصول إلى النموذج عبر Claude API بالمعرّف claude-sonnet-5، كما هو متاح في Claude Code والمنصة الكاملة.

ملف السلامة يستحق وقفة مستقلة. تقييمات Anthropic قبل الإطلاق أظهرت أن Sonnet 5 أقل في السلوكيات غير المرغوبة مقارنةً بـSonnet 4.6: أفضل في رفض الطلبات الخبيثة، وأكثر مقاومةً لمحاولات حقن التعليمات، وأقل هلوسةً وإطراءً مجاملاتياً. غير أن معدل السلوكيات غير المتوافقة في التدقيق السلوكي الآلي يبقى أعلى مما سجّله Opus 4.8 وClaude Mythos Preview، ما يُعني أن Opus لا يزال الخيار المفضّل للتطبيقات الحساسة. أما على صعيد الأمن السيبراني، فالنموذج لم يُدرَّب على هذه المهام عمداً: في اختبار تطوير ثغرات لمتصفح Firefox 147 (أُجري بالتعاون مع Mozilla، وقد سُدّت جميع الثغرات في Firefox 148)، لم يتمكن Sonnet 5 من تطوير ثغرة كاملة تعمل بنسبة 0.0%، وإن كان قد أبدى نسبة نجاح جزئي أعلى قليلاً من Sonnet 4.6. لهذا السبب، أطلقت Anthropic النموذج مع تفعيل الضمانات السيبرانية بشكل افتراضي، وهي ذاتها الضمانات المستخدمة في Opus 4.7 و4.8، لكن بمستوى أقل صرامة من تلك المستخدمة مع Fable 5. والجدير بالذكر أن تفعيل برنامج Cyber Verification Program لدى المؤسسات المسجّلة مسبقاً ينسحب تلقائياً على Sonnet 5 دون الحاجة إلى إعادة التسجيل، وهو متاح حالياً على المنصة الأصلية وعلى AWS وMicrosoft Foundry، وقريباً على Google Vertex.

من زاوية عملية: إذا كنت تبني وكلاء تعتمد على التصفح والبحث الآلي أو العمل على واجهات سطح المكتب، فالفترة التمهيدية حتى نهاية أغسطس فرصة حقيقية لاختبار النموذج بتكلفة تقارب نصف سعر Opus 4.8 للإدخال. التفاصيل الكاملة لتقييمات الأداء والسلامة متوفرة في بطاقة نظام Claude Sonnet 5.

Anthropic Blog