أخبار الذكاء الاصطناعي

نفيديا تطلق مجموعة بيانات ونماذج مفتوحة للذكاء الاصطناعي الصوتي متعدد اللغات

يُقدَّر أن نحو سبعة آلاف لغة في العالم، لكن نسبة كبيرة منها لا تُدعَّم بنماذج الذكاء الاصطناعي اللغوية. تعمل نفيديا على معالجة هذه المسألة عبر مجموعة بيانات ونماذج تدعم تطوير التعرّف على الكلام والترجمة بجودة عالية لــ25 لغة أوروبية، من بينها لغات ذات بيانات محدودة مثل الكرواتية والإستونية والمالتية.

تهدف هذه الأدوات إلى تمكين المطورين من توسيع نطاق تطبيقات الذكاء الاصطناعي لخدمة مستخدمين عالميين بتقنيات كلام دقيقة وسريعة في سيناريوهات إنتاجية مثل المحادثات المتعددة اللغات ووكلاء خدمة العملاء الصوتيين وخدمات الترجمة الفورية. وتتضمن:

  • مجموعة بيانات Granary، وهي مكتبة مفتوحة واسعة النطاق تحتوي على نحو مليون ساعة صوت، منها نحو 650 ألف ساعة للتعرّف على الكلام وأكثر من 350 ألف ساعة للترجمة الكلامية.
  • NVIDIA Canary-1b-v2، نموذج بحدود مليار معلمة مُدرَّب على Granary للتعرّف الآلي على الكلام بجودة عالية في اللغات الأوروبية، إضافة إلى الترجمة بين الإنجليزية وباقي اللغات المدعومة بلغات تقارب قرابة 24 لغة.
  • NVIDIA Parakeet-tdt-0.6b-v3، نموذج مبسّط بقرابة 600 مليون معلمة صُمِّم للتفريغ النصي في الوقت الفعلي وبحجم كبير من اللغات المدعومة.

ستُقدَّم الورقة البحثية لــGranary في مؤتمر Interspeech الذي يُعقد في هولندا من 17 إلى 21 أغسطس. كما أن مجموعة Granary والنماذج Canary وParakeet متاحة عبر منصة Hugging Face.

كيف يعالج Granary ندرة البيانات

لإعداد مجموعة Granary، تعاون فريق بحث نفيديا مع باحثين من جامعة كارينجي ميلتون ومؤسسة Fondazione Bruno Kessler. عبر خط معالجة مبتكر للصوت غير الموسوم يعتمد على أداة معالج بيانات الكلام NeMo من نفيديا، جرى تحويل البيانات إلى صيغة منسقة وعالية الجودة.

يسهم هذا النهج في تحويل البيانات العامة إلى مواد صالحة لتدريب نماذج الذكاء الاصطناعي، مع تقليل الاعتماد على annotation بشرية مكثفة، كما أن العمل مُتاح مفتوح المصدر على GitHub.

بفضل بيانات Granary النظيفة وجاهزيتها للاستخدام، يمكن للمطورين البدء في بناء نماذج تتعامل مع مهام التعرّف والترجمة في نحو 24 لغة رسمية في الاتحاد الأوروبي، إضافة إلى الروسية والأوكرانية.

للغات أوروبية قليلة الموارد في مجموعات البيانات المدونة، يوفر Granary مورداً حيوياً لتطوير تقنيات كلام أكثر شمولاً تعكس التنوع اللغوي للقارة — مع الحاجة إلى كميات تدريب أقل.

أظهر الفريق في ورقة Interspeech أن Granary يحتاج نحو نصف كمية بيانات التدريب مقارنةً بمجموعات البيانات الشائعة لتحقيق دقة مستهدفة في التعرّف الآلي على الكلام والترجمة الآلية.

استخدام NVIDIA NeMo لتسريع التفريغ النصي

تقدم نماذج Canary-1b-v2 وParakeet-tdt-0.6b-v3 أمثلة عن أنواع النماذج التي يمكن بناؤها باستخدام Granary، مع تخصيصها لتطبيقات محددة. Canary-1b-v2 مُصمَّمة للدقة في المهام المعقدة، بينما Parakeet-tdt-0.6b-v3 مُصمَّمة لتحقيق سرعة عالية وزمن استجابة منخفض.

من خلال مشاركة المنهجية وراء مجموعة Granary وتلك النماذج، تتيح نفيديا لمجتمع مطوري الذكاء الاصطناعي للكلام إمكانية تكييف تدفق البيانات هذا مع نماذج لغات إضافية أو لغات جديدة، بما يعزز ابتكار تقنيات الذكاء الاصطناعي للكلام.

Canary-1b-v2 مرخَّص بموجب ترخيص مرن، وهو يوسّع نطاق اللغات المدعومة من أربعة إلى 25 لغة. يقدم جودة تفريغ وترجمة تقارب النماذج الأكبر بثلاثة أضعاف، مع استدلال أسرع بمقدار يصل إلى 10 أضعاف.

NeMo، وهي حزمة برمجية لإدارة دورة حياة وكيل الذكاء الاصطناعي، وNeMo Curator، جزء من الحزمة، تتيح فلترة أمثلة اصطناعية من البيانات المصدرية لضمان جودة samples المستخدمة في التدريب. كما جرى استخدام NeMo Speech Data Processor لمهام مثل محاذاة النصوص مع ملفات الصوت وتحويل البيانات إلى الصيغ المطلوبة.

Parakeet-tdt-0.6b-v3 يعطي أولوية للإنتاجية العالية، حيث يستطيع تفريغ مقاطع صوتية مدتها 24 دقيقة في تمرير استدلال واحد، كما يكتشف اللغة المدخلة تلقائياً ويُفريغها دون خطوات تهيئة إضافية.

كل من Canary وParakeet يوفران علامات ترقيم صحيحة، واستخدام أحرف كبيرة وتوقيتات على مستوى الكلمات في المخرجات.

_________

المصدر: https://blogs.nvidia.com/blog/speech-ai-dataset-models/

مقالات ذات صلة

زر الذهاب إلى الأعلى