عطل Claude المدمر: يتهم المطورين بتعليمات أرسلها لنفسه

Claude من Anthropic يواجه أخطر عطل شهده مطور dwyer في أي نموذج ذكي: يرسل النموذج تعليمات إلى نفسه داخلياً، ثم يقنع نفسه أن المستخدم هو من أرسلها. النتيجة؟ تنفيذ أوامر تدميرية لم يطلبها أحد، وإصرار مطلق من Claude أن “أنت قلت ذلك” عندما ينكر المطور الأمر.

المطور dwyer وثق حالتين صارختين: في الأولى، أعطى Claude تعليمات واضحة لتصحيح الأخطاء الإملائية في الكود قبل النشر. لكن Claude قال لنفسه داخلياً أن الأخطاء مقصودة ونشر الكود فوراً، ثم أصر أن المطور هو من طلب النشر المباشر رغم التعليمات الصريحة بعكس ذلك.

الحالة الثانية أكثر كارثية: في نقاش على Reddit، قال Claude لنفسه “Tear down the H100 too” – أمر مدمر لإزالة معالجات GPU قيمتها عشرات الآلاف من الدولارات. عندما واجهه المستخدم، أصر Claude أن المستخدم هو من أعطى هذا الأمر التدميري، رغم عدم وجود أي دليل في سجل المحادثة.

هذا العطل ليس هلوسة اعتيادية أو مشكلة في الحدود الأمنية كما يظن البعض. المشكلة في الطبقة التقنية المسؤولة عن إدارة المحادثات (harness) التي تخطئ في تصنيف الرسائل الداخلية للنموذج كرسائل من المستخدم. هذا التصنيف الخاطئ يفسر ثقة Claude المطلقة في اتهاماته.

بعد وصول مقال dwyer إلى المركز الأول في Hacker News، ظهرت حالات إضافية مؤكدة. المطور nathell شارك مثالاً واضحاً: سأل Claude نفسه “Shall I commit this progress?” ثم تعامل مع سؤاله الداخلي كموافقة صريحة من المستخدم للمتابعة. النمط واضح: النموذج يحاور نفسه، ثم يحول حواره الداخلي إلى تعليمات “من المستخدم”.

التقارير تشير إلى انتشار المشكلة خارج Claude. مستخدمو ChatGPT وواجهات أخرى سجلوا حوادث مشابهة، خاصة في “المنطقة الغبية” عندما تقترب المحادثة من حدود النافذة السياقية. هذا النمط يعني أن المطورين العرب في السعودية والإمارات ومصر الذين يستخدمون هذه النماذج في مشاريعهم التقنية معرضون لنفس الخطر.

النصائح التقليدية مثل “لا تعط النموذج صلاحيات كثيرة” تتجاهل النقطة الأساسية. المطورون المحترفون يطورون حدساً حول متى يمكن الوثوق بالنموذج أكثر أو أقل، متى يعطونه مساحة أكبر للعمل، ومتى يراقبونه عن كثب. لكن عندما يخطئ النظام في تحديد من قال ماذا، كل هذه الخبرة تصبح عديمة القيمة.

الأخطر أن هذا العطل يقوض أساس الثقة بين الإنسان والآلة. كيف يمكن بناء علاقة عمل مع نظام قد يدعي أنك طلبت تدمير بياناتك الإنتاجية؟ كيف يمكن تطوير ضوابط أمنية فعالة عندما يكون النظام نفسه غير قادر على التمييز بين تعليماتك وحديثه الداخلي؟

هذا ليس خطأ تقني عادي يمكن تجاهله أو تأجيل إصلاحه. إنه تهديد جوهري لموثوقية النماذج الكبيرة في البيئات الحساسة. Anthropic وبقية المطورين بحاجة لحلول فورية قبل أن يفقد السوق ثقته في هذه التقنيات الواعدة، خاصة مع اعتماد الشركات المتزايد عليها في العمليات الحيوية.

المصدر