
يواجه مجال إنتاج الصوت والفيديو من النص أزمة تقييم حقيقية: النماذج الحالية تبدو مبهرة جمالياً لكنها تفشل في المهام الأساسية التي يتطلبها العمل الفعلي. هذا ما كشفه AVGen-Bench، أول معيار شامل لتقييم نماذج T2AV عبر 11 فئة من المهام الواقعية، والذي طوره فريق من تسعة باحثين بقيادة Ziwei Zhou وZeyuan Lai.
المشكلة الأساسية في التقييمات الحالية أنها تركز على الصوت والفيديو كوسائط منفصلة، أو تعتمد على قياسات تشابه سطحية تتجاهل التفاصيل الدقيقة المطلوبة في السيناريوهات العملية. لا يكفي أن ينتج النموذج فيديو “جميل” – يجب أن يستجيب بدقة لكل عنصر في الطلب النصي.
لحل هذه المعضلة، قدم الباحثون إطار تقييم متعدد المستويات يجمع بين النماذج المتخصصة الخفيفة ونماذج اللغة الكبيرة متعددة الوسائط، مما يتيح قياس كل شيء من جودة الإدراك الحسي إلى القدرة على التحكم الدلالي الدقيق.
- فشل في عرض النصوص: النماذج تواجه صعوبات مستمرة في إدماج النصوص المكتوبة داخل المحتوى المرئي، رغم أن هذه مهمة أساسية في الإنتاج الإعلامي
- عدم تماسك الكلام: الصوت المُنتج غالباً ما يفتقر للتماسك الطبيعي، مما يجعله غير صالح للاستخدام في التطبيقات التجارية
- انهيار في الاستدلال الفيزيائي: النماذج تفشل في فهم القوانين الفيزيائية الأساسية، مما ينتج محتوى غير منطقي
- فقدان كامل للتحكم في النغمة الموسيقية: أكثر النتائج إثارة للقلق، حيث تظهر جميع النماذج المُختبرة عجزاً تاماً في التحكم الدقيق بالنغمات الموسيقية
- الفجوة بين الجماليات والموثوقية: النماذج تنتج محتوى جذاب بصرياً وسمعياً لكنها تفتقر للدقة الدلالية المطلوبة للمهام المعقدة
هذه النتائج تضع صناعة الإعلام والمحتوى العربية أمام تحدٍ استراتيجي. الشركات التي تستثمر في حلول إنتاج المحتوى بالذكاء الاصطناعي – سواء في السعودية من خلال مبادرات نيوم وحكومة دبي الرقمية، أو في مصر عبر شركات الإنتاج الناشئة – تحتاج لفهم أن الأدوات الحالية قد تكون غير جاهزة للمهام التي تتطلب دقة دلالية عالية.
المعيار الجديد لا يقتصر على تحديد المشاكل، بل يوفر منهجية علمية لقياس التحسن المستقبلي. الأدوات والموارد متاحة للمطورين والباحثين العرب الذين يريدون المساهمة في تطوير هذا المجال أو تقييم الحلول المتاحة بموضوعية.



