نموذج Privacy Filter من OpenAI للحماية المحلية للبيانات

🎧 استمع للملخص

بقلم: ليلى | محررة أدوات المطورين · صوت تحريري بإشراف بشري

كشفت OpenAI عن Privacy Filter، نموذج ذكي مفتوح المصدر متخصص في اكتشاف وإخفاء المعلومات الشخصية من النصوص. النموذج بحجم 1.5 مليار معامل يحقق دقة استثنائية تبلغ 97.43% على معيار PII-Masking-300k المعدل (وفقاً لـ OpenAI)، ويعمل محلياً على أجهزة المطورين دون إرسال البيانات الحساسة لأي خادم خارجي.

تقليدياً، تعتمد أدوات حماية الخصوصية على قواعد ثابتة لرصد أنماط معينة مثل أرقام الهواتف والإيميلات. لكن Privacy Filter يتفوق عليها بفهم السياق اللغوي، مما يمكّنه من التمييز بين المعلومات العامة المناسبة للنشر والبيانات الخاصة التي تحتاج إخفاء. مثلاً، يفهم الفرق بين ذكر اسم شخصية عامة واسم فرد خاص في رسالة إيميل شخصية.

ثمان فئات للبيانات الحساسة: يكشف الأسماء الخاصة، العناوين، الإيميلات، أرقام الهواتف، المواقع الإلكترونية الخاصة، التواريخ الشخصية، أرقام الحسابات البنكية، وكلمات المرور والمفاتيح السرية
معالجة النصوص الطويلة: يدعم حتى 128,000 رمز في مرور واحد، مناسب لمعالجة المستندات والمحادثات الطويلة بكفاءة
السرعة والكفاءة: 50 مليون معامل نشط فقط من أصل 1.5 مليار، مما يضمن معالجة سريعة حتى على الأجهزة محدودة الموارد
قابلية التخصيص: متاح تحت رخصة Apache 2.0 على Hugging Face مع إمكانية fine-tuning لتحسين الأداء في مجالات محددة
تحسن هائل في التخصص: يرفع الدقة من 54% إلى 96% في المجالات المتخصصة بعد fine-tuning بسيط على بيانات محدودة

واجهة إعلان نموذج Privacy Filter من <a href= — Privacy Filter يحول النصوص الحساسة إلى محتوى آمن للمشاركة

العملية تتم عبر تقنية bidirectional token classification مع span decoding، حيث يحلل النموذج النص كاملاً في مرور واحد ثم يفك تشفير المناطق الحساسة باستخدام خوارزمية Viterbi المقيدة. هذا يضمن حدود إخفاء واضحة ومتماسكة، بدلاً من القطع العشوائي الذي تعاني منه الأدوات التقليدية.

تحديات النموذج واضحة — ليس أداة إخفاء هوية شاملة ولا بديلاً عن المراجعة البشرية في القطاعات الحساسة كالطب والقانون والمال. أداؤه يتأثر بالسياقات القصيرة والمراجع الغامضة، وقد يفوته بعض المعرّفات غير المألوفة. OpenAI تستخدم نسخة محسنة منه في سير عملها الداخلي، لكن الشركة تؤكد أن المراجعة البشرية تبقى ضرورية للبيانات فائقة الحساسية.

الإطلاق يعكس توجهاً أوسع نحو “النماذج الصغيرة ذات القدرات المتطورة” — فبدلاً من نماذج عملاقة تفعل كل شيء، نحو أدوات متخصصة تتفوق في مهام محددة وتعمل محلياً. هدف واضح: جعل النماذج “تتعلم عن العالم، وليس عن الأفراد الخاصين”.

OpenAI Blog