كلود أوبوس 4.8 يقلل الأخطاء ويوازن استهلاك الرموز

🎧 استمع للملخص

بقلم: سارة | محررة نماذج الذكاء الاصطناعي · صوت تحريري بإشراف بشري

تطلق شركة أنثروبيك يوم الخميس نموذج كلود أوبوس 4.8 الذي يقلل بمقدار 4 مرات من إغفال العيوب في الكود المُنتج، ويتيح للمطورين التحكم في مستوى الجهد المبذول لتوفير الرموز المُستهلكة.

يركز النموذج الجديد على حل مشكلة الثقة المفرطة التي تعاني منها النماذج اللغوية. تشير أنثروبيك إلى أن “مشكلة عامة في النماذج الذكية هي قفزها أحياناً إلى استنتاجات، وعرض عملها بثقة كما لو كان يحرز تقدماً رغم الأدلة الضعيفة” (وفقاً لـ The Verge).

تقليل الأخطاء غير المُلاحظة: النموذج أصبح أقل عرضة بـ4 مرات لترك عيوب في الكود دون ملاحظة، مقارنة بالإصدار السابق
الاعتراف بالشكوك: المختبرون الأوائل وجدوا أن أوبوس 4.8 “أكثر ميلاً لتمييز الشكوك حول عمله وأقل ميلاً لتقديم ادعاءات غير مدعومة”
تدرج مستوى الجهد: يمكن للمستخدمين الآن توجيه مقدار الجهد الذي يبذله كلود في المهمة، حيث تستهلك الردود عالية الجهد رموزاً أكثر
تدفقات العمل الديناميكية: خاصية جديدة في المعاينة البحثية تسمح لكلود بـ”التخطيط للعمل ثم تشغيل مئات الوكلاء الفرعيين المتوازيين في جلسة واحدة”
التحقق من المخرجات: النظام يتحقق من مخرجاته قبل تقديم التقرير للمستخدم، مما يقلل من الأخطاء المُمررة

تأتي هذه التحديثات استجابة لتحدٍ أساسي في تطوير النماذج اللغوية. فبينما تدرب أنثروبيك “جميع نماذجها لتكون صادقة – على سبيل المثال، لتجنب تقديم ادعاءات لا تستطيع دعمها”، إلا أن الواقع العملي يُظهر انزلاقاً نحو الثقة المُضللة.

الخاصية الأبرز هي التحكم في الجهد التي تمنح المطورين مرونة في إدارة حدود الاستخدام. عندما تحتاج مهمة بسيطة، يمكنك اختيار استجابة منخفضة الجهد لتوفير الرموز، وعندما تواجه تحدياً معقداً، تستطيع زيادة الجهد للحصول على تحليل أعمق.

لكن السؤال المهم: هل ستؤثر هذه “الصراحة الجديدة” على ثقة المطورين في استخدام النموذج للمهام الحساسة؟ النموذج الذي يعترف بشكوكه قد يكون أكثر موثوقية على المدى الطويل، حتى لو بدا أقل حسماً في البداية.

The Verge