Transformers 5.6.0 نماذج حماية الخصوصية معالجة الوثائق

🎧 استمع للملخص

بقلم: يوسف | محرر أدوات الذكاء الاصطناعي · صوت تحريري بإشراف بشري

أعلنت Hugging Face عن إطلاق الإصدار 5.6.0 من مكتبة Transformers بتحديثات استراتيجية تستهدف المؤسسات التي تبحث عن حلول ذكاء اصطناعي محلية. (وفقاً للمصدر الأصلي) يركز هذا الإصدار على أربعة نماذج متخصصة تلبي احتياجات حماية البيانات ومعالجة الوثائق المعقدة.

OpenAI Privacy Filter يقود الإضافات الجديدة كنموذج ثنائي الاتجاه مصمم خصيصاً لاكتشاف المعلومات الشخصية في النصوص وإخفاؤها. يعمل النموذج بتمريرة واحدة لتصنيف كل رمز نصي ضمن 8 فئات خصوصية، ثم يستخدم إجراء Viterbi المقيد لفك تشفير النطاقات المتماسكة. هذا التصميم يجعله مثالياً للمؤسسات التي تعالج كميات ضخمة من البيانات الحساسة محلياً دون إرسالها لخوادم خارجية.

يأتي QianfanOCR من بايدو كنموذج بـ 4 مليار معامل لتحويل الصور إلى نصوص مباشرة، متجاوزاً مراحل OCR التقليدية المتعددة. النموذج يدعم تحليل الوثائق المنظمة، واستخراج الجداول، وفهم المخططات، والإجابة على الأسئلة، واستخراج المعلومات الأساسية ضمن نموذج موحد. تقنيته الفريدة “Layout-as-Thought” تولد تمثيلات هيكلية للتخطيط قبل إنتاج النتائج النهائية، مما يجعله فعالاً بشكل خاص مع الوثائق المعقدة متعددة العناصر.

بينما يركز SAM3-LiteText على كفاءة الموارد عبر استبدال مُرمز النص الثقيل في SAM3 (353 مليون معامل) بمُرمز MobileCLIP محسن بتقنية تقطير المعرفة. هذا التحسين يقلل معاملات مُرمز النص بنسبة تصل إلى 88% مع المحافظة على أداء التقسيم المقارب للنموذج الأصلي، معالجاً التكرار الموجود في استخدام النصوص لمهام التقسيم.

أما SLANet وSLANet_plus فهما نماذج خفيفة مصممة للتعرف على هياكل الجداول في الوثائق والمشاهد الطبيعية. طورتهما فرق PaddlePaddle Vision في بايدو باستخدام شبكة العمود الفقري PP-LCNet المتوافقة مع المعالجات، ووحدة دمج الميزات CSP-PAN عالية ومنخفضة المستوى، ووحدة فك تشفير الميزات SLA Head التي توافق المعلومات الهيكلية والموضعية.

تلقت خدمة `transformers serve` تحديثات جوهرية تجعلها أكثر تنافسية مع الحلول التجارية. الإضافة الأبرز هي نقطة نهاية `/v1/completions` التي توفر توافقاً مع OpenAI API القديم للاستكمال النصي. كما حصلت الخدمة على دعم المحتوى متعدد الوسائط للمدخلات الصوتية والمرئية، وتحسينات في استدعاء الأدوات عبر `parse_response`، وإعادة توجيه صحيح لحقول `tool_calls/tool_call_id`.

معالجة الأخطاء تحسنت بإضافة خطأ 400 عند عدم توافق النموذج المطلوب مع النموذج المثبت على الخادم، بينما شملت التحديثات الأخرى خيارات `–compile` و `–model-timeout` الجديدة. الوثائق حُدثت لتغطي خيارات التشغيل الجديدة وتوضيح كيفية استخدام الميزات متعددة الوسائط.

في جانب الأداء، حقق تحميل الصور تحسناً يصل إلى 17% من خلال استخدام `torchvision’s decode_image` بدلاً من معالجة PIL التقليدية. هذا التحسين يؤثر بشكل خاص على التطبيقات التي تعالج كميات كبيرة من الصور مثل تحليل الوثائق والرؤية الحاسوبية.

التدريب الموزع شهد إصلاحات حرجة لمشاكل كانت تؤدي إلى نتائج خاطئة أو قيم NaN في Expert Parallelism، وقيم NaN في الأوزان على العمليات غير المرتبة 0 في FSDP. كما أُضيف دعم تحميل المحولات مع Tensor Parallelism، وتم نشر وثائق تدريب TP، وإضافة MoE إلى خطة Gemma4 TP.

نماذج الصوت حصلت على توافق vLLM من خلال إصلاحات مستهدفة عبر عدة تطبيقات نماذج، بينما شملت تحسينات الموثوقية إعادة المحاولة بتأخير أسي لتحميل الملفات الصوتية، وإصلاح تعطل في خط إنتاج text-to-speech عند احتواء إعدادات التوليد على قيم None.

التحدي الأكبر في هذا الإصدار يكمن في التغييرات الجذرية، خاصة إزالة تسجيل `rotary_fn` الداخلية كدالة نواة مخفية. هذا يعني أن أي كود يستخدم `self.rotary_fn(…)` داخل وحدة Attention سيتعطل ويجب تحديثه لاستدعاء الدالة مباشرة. هذا النوع من التغييرات يتطلب مراجعة دقيقة للكود الموجود قبل الترقية.

الإصدار يعكس توجهاً واضحاً نحو تمكين المؤسسات من تشغيل نماذج متقدمة محلياً، خاصة في البيئات التي تتطلب حماية صارمة للبيانات أو معالجة مستندات حساسة. النماذج الأربعة الجديدة تغطي حاجات متنوعة من حماية الخصوصية إلى معالجة الوثائق الذكية، مما يقلل الاعتماد على خدمات سحابية خارجية في هذه المهام الحرجة.

GitHub Hugging Face Transformers