أخبار الذكاء الاصطناعي

أنثروبيك توضح استراتيجيتها لضمان سلامة الذكاء الاصطناعي

قدمت شركة أنثروبيك تفاصيل حول استراتيجيتها لضمان سلامة نموذج الذكاء الاصطناعي الخاص بها، “كلود”، بهدف الحفاظ على كفاءته وفائدته مع تجنب التسبب في أضرار.

في صلب هذه الجهود فريق السلامة الخاص بأنثروبيك، الذي يضم خبراء سياسات ومختصين في علوم البيانات والمهندسين ومحللي التهديدات، ممن يفهمون كيف يفكر الفاعلون السيئون.

لا تعتمد أنثروبيك على آلية سلامة واحدة، بل تتبع نهجًا متعدد الطبقات يشبه قلعة محصنة. يبدأ الأمر بوضع قواعد واضحة وينتهي بالكشف المستمر عن التهديدات الجديدة في البيئة الرقمية.

تتمثل الخطوة الأولى في سياسة الاستخدام التي تحدد بوضوح كيفية استخدام “كلود” بشكل مسؤول، مع التركيز على مواضيع حساسة مثل نزاهة الانتخابات وحماية الأطفال، بالإضافة إلى التعامل الآمن في مجالات مالية وصحية.

لصياغة هذه السياسات، يستخدم الفريق إطارًا موحدًا لتقييم الأضرار المحتملة، يشمل التأثيرات الجسدية والنفسية والاقتصادية والاجتماعية. هذا الإطار لا يعد نظام تصنيف رسمي، بل وسيلة منظمة لموازنة المخاطر عند اتخاذ القرارات. كما يتم التعاون مع خبراء خارجيين لإجراء اختبارات “نقاط ضعف السياسات”، حيث يحاول متخصصون في مكافحة الإرهاب وحماية الأطفال تحدي “كلود” بطرح أسئلة صعبة للكشف عن مواطن الضعف.

ظهر هذا التوجه عمليًا أثناء الانتخابات الأمريكية 2024، حيث اكتشفت أنثروبيك بعد تعاونها مع معهد الحوار الاستراتيجي أن “كلود” قد يقدم معلومات قديمة حول التصويت. فتمت إضافة إشعار يوجه المستخدمين إلى مصادر موثوقة لتحديثات الانتخابات محايدة.

تعليم “كلود” التمييز بين الصواب والخطأ

يعمل فريق السلامة في أنثروبيك بالتنسيق مع المطورين لتضمين عناصر السلامة منذ بداية تدريب “كلود”. ويشمل ذلك تحديد السلوكيات المقبولة وغير المقبولة ودمج هذه القيم في نموذج الذكاء الاصطناعي نفسه.

كما يعتمد الفريق على شراكات مع متخصصين، مثل التعاون مع مؤسسة دعم الأزمات “ثرو لاين”، حيث تم تدريب “كلود” على التعامل مع المواضيع الحساسة المتعلقة بالصحة النفسية والإيذاء الذاتي بحساسية، بدلًا من رفض الحوار عنها فقط. وهذا يفسر رفض “كلود” تنفيذ طلبات مرتبطة بأنشطة غير قانونية أو كتابة أكواد ضارة أو الإحتيال.

وقبل إطلاق أي نسخة جديدة من “كلود”، يخضع النموذج لثلاثة أنواع رئيسية من التقييمات:

  1. تقييمات السلامة: اختبار مدى التزام “كلود” بالقواعد حتى في المحادثات المعقدة وطويلة الأمد.
  1. تقييمات المخاطر: لجوانب ذات حساسية عالية مثل التهديدات السيبرانية والمخاطر البيولوجية، يتم إجراء اختبارات متخصصة غالبًا بالتعاون مع الجهات الحكومية والشركاء الصناعيين.
  1. تقييمات الانحياز: لضمان عدالة الخوارزميات وتقديم إجابات دقيقة وموثوقة لجميع المستخدمين، مع فحص التحيزات السياسية أو المتعلقة بالعرق أو الجنس.

تساعد هذه الاختبارات المكثفة الفريق على التأكد من فعالية التدريب وحاجتهم لإضافة طبقات حماية إضافية قبل الإطلاق.

استراتيجية سلامة الذكاء الاصطناعي المستمرة لأنثروبيك

بعد نشر “كلود”، تتولى مجموعة من أنظمة الأتمتة والمراجعين مراقبة الأداء واكتشاف أي سلوك غير ملائم. الأداة الأساسية هي نماذج تصنيف متخصصة مبنية على “كلود” نفسها، تعمل على رصد الانتهاكات السياسية والقواعدية بشكل فوري.

حين تكتشف هذه الأنظمة مشكلة، يمكنها توجيه ردود “كلود” لتجنب المحتوى الضار، مثل الرسائل المزعجة، وقد تتخذ إجراءات مختلفة تشمل تحذير المستخدمين المتكررين أو إيقاف حساباتهم.

بالإضافة إلى ذلك، يدرس الفريق الاتجاهات العامة باستخدام أدوات تحفظ خصوصية المستخدمين، ويستخدم تقنيات تلخيص هرمية للكشف عن سوء الاستخدام المنظم، مثل الحملات التأثيرية المنسقة. يستمر الفريق في رصد التهديدات الجديدة عبر تحليل البيانات ومراقبة المنتديات التي قد يجتمع فيها الفاعلون السيئون.

تعترف أنثروبيك بأن ضمان سلامة الذكاء الاصطناعي مسؤولية جماعية، وتسعى للتعاون مع الباحثين وصانعي السياسات والجمهور لتطوير أفضل سبل الحماية.

_________

المصدر: https://www.artificialintelligence-news.com/news/anthropic-details-ai-safety-strategy/

مقالات ذات صلة

زر الذهاب إلى الأعلى