
بقلم: سارة | محررة نماذج الذكاء الاصطناعي · صوت تحريري بإشراف بشري
اضطرت شركة أنثروپيك إلى الاعتذار العلني بعد فضيحة اكتشاف استخدامها حراس أمان خفية في نموذج Claude Fable 5 تستهدف سراً الباحثين والشركات المنافسة التي تحاول تطوير أنظمة ذكاء اصطناعي مُنافسة. الشركة قررت الآن العكس التام والانتقال إلى نهج شفاف يُعلم المستخدمين عندما تُفعّل القيود الأمنية.
كان نموذج Fable 5 أول نموذج متاح على نطاق واسع من فئة Mythos، التي حذرت أنثروپيك لشهور من خطورة إطلاقها للجمهور. لمعالجة هذه المخاطر، أطلقت الشركة Fable مع حراس أمان تمنعه من الرد على استفسارات “عالية المخاطر”، خاصة تلك المتعلقة بـالتقطير – التقنية المستخدمة لتدريب نماذج ذكاء اصطناعي أصغر باستخدام مخرجات النماذج الأكبر.
الجانب الأكثر إثارة للجدل كان طريقة التعامل مع هذه القيود. في بطاقة النظام الخاصة بـ Fable – الوثيقة العامة التي تشرح كيفية عمل النظام – ذكرت أنثروپيك أنها ستتعامل مع الاستفسارات المُشتبه في كونها محاولات تقطير عبر تعديل وتدهور إجابات النموذج مباشرة. الأخطر أن المستخدمين لن يُعلموا أنهم فعّلوا إجراء الأمان هذا أو أن الإجابات تم تغييرها.
تغير نهج أنثروپيك الآن جذرياً. ستحوّل الاستفسارات المُشتبه بها إلى Claude Opus 4.8 – النموذج الرئيسي السابق للشركة – مع إشعار واضح للمستخدمين. الشركة تعهدت بأن المستخدمين “سيرون هذا في كل مرة يحدث فيها ذلك”. هذا النهج يُماثل كيفية تعامل Fable مع المجالات عالية المخاطر الأخرى مثل البيولوجيا والكيمياء والأمن السيبراني، حيث تُحوّل الاستفسارات إلى Opus 4.8 ما لم تُحجب تماماً تحت قوانين الأمان الأوسع للشركة.
برّرت أنثروپيك قرارها الأولي بالقول: “الحراس المرئية يمكن فحصها، لذا يجب أن تكون قوية، وهو ما يستغرق وقتاً لإنجازه بشكل صحيح. الحراس الخفية يمكن استهدافها بدقة أكبر، مما يسمح لنا بالشحن بسرعة مع عدد قليل جداً من النتائج الإيجابية الكاذبة”. لكنها اعترفت أن “هذا كان المقايضة الخاطئة” وأن المستخدمين يستحقون الرؤية في إجراءات الأمان المُطبقة والأسباب وراءها.

القرار جاء بعد ردود فعل غاضبة من مجتمع أبحاث الذكاء الاصطناعي ضد قرار أنثروپيك بتقييد المستخدمين المُشتبه في محاولتهم تقطير Fable إلى نماذج منافسة سراً. النقاد حذروا من أن هذا الحارس قد يؤثر أيضاً على أطراف ثالثة تحاول تقييم النموذج المُتقدم. في بطاقة النظام، بررت أنثروپيك استهداف هذه الطلبات بقولها أن قدرة النماذج الجديدة على تسريع تطوير الذكاء الاصطناعي تُبرر ذلك، مُشيرة إلى أن “استخدام Claude لتطوير نماذج منافسة ينتهك بالفعل شروط الخدمة لدينا”.
الشركة لديها سوابق في اتهام منافسين صينيين مثل DeepSeek بتقطير نماذجها “على نطاق صناعي” بشكل غير عادل. لكن النهج السري للتعامل مع المشكلة أثار قلقاً أوسع حول الشفافية في قطاع الذكاء الاصطناعي. مشكلة أخرى كشفت عنها أنثروپيك هي أن حراس الأمان في مجال البيولوجيا تم معايرتها على نطاق واسع جداً لدرجة أن Fable أصبح غير صالح للاستعمال عملياً حتى للاستفسارات الأساسية، وهو ما اعترفت الشركة به في تعليق لـ The Verge.
هذه القضية تُسلط الضوء على التحدي الأساسي الذي تواجهه شركات الذكاء الاصطناعي: كيفية التوازن بين الأمان والشفافية دون خنق الابتكار أو خداع المستخدمين. قرار أنثروپيك بالاعتذار والتراجع يُظهر قوة الضغط من مجتمع الباحثين، لكنه أيضاً يكشف عن نضج الشركة في الاعتراف بأخطائها وتصحيحها.






