تُحدَّث يومياً

مصدرُك العربي
لمستقبل الذكاء الاصطناعي

أخبار، تقارير، أدوات وتحليلات يومية — كل ما تحتاجه لمتابعة ثورة الذكاء الاصطناعي باللغة العربية

✅ تم الاشتراك!
تعلم و استخدام الذكاء الاصطناعي

Transformers 5.12.0 يدعم MiniMax-M3-VL وPP-OCRv6 وParakeet-RNNT للمطورين

🎧 استمع للملخص

بقلم: يوسف | محرر أدوات الذكاء الاصطناعي · صوت تحريري بإشراف بشري

وصل الإصدار 5.12.0 من مكتبة Transformers بثلاثة نماذج ذكاء اصطناعي جديدة تهدف إلى توسيع قدرات المطورين في معالجة الرؤية والنصوص والتعرف البصري على الحروف والصوت. (وفقاً لـ GitHub)

نموذج MiniMax-M3-VL للرؤية والنصوص

يقدم MiniMax-M3-VL معمارية متقدمة تجمع برج الرؤية بنمط CLIP مع تشفير موضعي دوراني ثلاثي الأبعاد والعمود الفقري النصي MiniMax-M3. يعتمد النموذج على مفكك Mixture-of-Experts مختلط الكثافة/المتناثر مع خبراء SwiGLU-OAI ومفهرس البرق للانتباه المتناثر البلوكي.

يعالج النموذج الصور عبر نظام تضمين البقع Conv3d مع مكونات متخصصة للفهم والتوليد متعدد الوسائط. هذا التصميم يجعله مناسباً للتطبيقات التي تحتاج دمج المعلومات البصرية والنصية معاً، مثل وصف الصور وتحليل المحتوى المرئي.

PP-OCRv6: الجيل الجديد من التعرف البصري

حصل نموذج PP-OCRv6 على تحديث شامل للوثائق والاختبارات البطيئة مع توفر الأوزان الرسمية أخيراً. يجمع هذا النظام الخفيف بين الابتكار المعماري والتحسين المرتكز على البيانات.

أعاد PP-OCRv6 تصميم العمود الفقري وعنق الكشف وعنق التعرف حول كتلة بناء موحدة من نمط MetaFormer مع إعادة هيكلة هيكلية. يتوفر بثلاث مستويات (متوسط، صغير، صغير جداً) تتشارك نفس العناصر الأساسية لتغطي سيناريوهات النشر من الخادم إلى الأجهزة الحافية.

Parakeet-RNNT لمعالجة الصوت المتقدمة

يدمج ParakeetForRNNT مُشفِّر Fast Conformer مع مفكك RNN-T (RNN Transducer) لمعالجة صوتية محسنة. يستخدم المفكك شبكة تنبؤ LSTM للحفاظ على سياق اللغة عبر تنبؤات الرموز، بينما تدمج الشبكة المشتركة مخرجات المُشفِّر والمفكك.

يعتمد النموذج على فك التشفير الطمع للاستنتاج: انبعاث فارغ ينقل إطار المُشفِّر بخطوة واحدة، وانبعاث غير فارغ يبقى على نفس الإطار. هذا الآلية تحسن كفاءة التعرف على الكلام ومعالجة الصوت.

إصلاحات الأمان والاستقرار

شمل التحديث 21 إصلاحاً وتحسيناً مهماً، بما في ذلك تطبيق فحص أمني حقيقي لطلبات السحب من المساهمين الخارجيين والتقاط مشاكل تنفيذ الشل عبر تقارير Bandit JSON. كما أُصلحت مشكلة مطابقة سلاسل التوقف لرموز شظايا البايت وتحسين معالجة الأنواع الملموسة في AutoModel للنقاط التفتيشية المركبة.

تضمنت الإصلاحات أيضاً حل مشكلة hf_hub_download في عدم وضع الملفات في المجلد الحالي وتقليل عدم الاستقرار في اختبارات CI. هذه التحسينات تعزز موثوقية المكتبة للاستخدام الإنتاجي.

مساهمات المجتمع الرئيسية

برز مساهمان رئيسيان في هذا الإصدار: @ArthurZucker الذي أضاف نموذج MiniMax M3-VL بالمراجعة #46600، و@eustlb الذي طور Parakeet-RNNT بالمراجعة #46331. كما ساهم @zhang-prog في تحديث وثائق واختبارات PP-OCRv6.

النماذج الثلاثة الجديدة تفتح إمكانيات واسعة للمطورين العرب في بناء تطبيقات ذكية متقدمة. MiniMax-M3-VL يناسب مشاريع تحليل الصور والمحتوى المرئي، PP-OCRv6 يخدم تطبيقات استخراج النصوص من المستندات والصور، بينما Parakeet-RNNT يحسن تطبيقات التعرف على الكلام والنسخ الصوتي.

GitHub Hugging Face Transformers

مقالات ذات صلة

زر الذهاب إلى الأعلى