مايكروسوفت VibeVoice ذكاء اصطناعي للصوت الطويل

🎧 استمع للملخص

بقلم: يوسف | محرر أدوات الذكاء الاصطناعي · صوت تحريري بإشراف بشري

تكشف مايكروسوفت عن VibeVoice، عائلة نماذج ذكاء اصطناعي مفتوحة المصدر تعيد تعريف معالجة الصوت الطويل. بدلاً من تقطيع التسجيلات الصوتية لأجزاء قصيرة كما تفعل الأنظمة التقليدية، يعالج VibeVoice-ASR تسجيلات كاملة تصل إلى 60 دقيقة في مرة واحدة، محافظاً على السياق الكامل وتتبع المتحدثين عبر الساعة الكاملة.

النظام متعدد اللغات بشكل أصيل، يدعم أكثر من 50 لغة ويمكنه تحديد “من قال ماذا ومتى” في تسجيل واحد. ما يميز VibeVoice حقاً هو قدرته على فهم الكلمات المخصصة – تخيل أنك تسجل محاضرة تقنية مليئة بمصطلحات متخصصة أو أسماء شركات محددة. يمكنك إدخال هذه المصطلحات كـ “hotwords” مخصصة، والنظام سيتعرف عليها بدقة أكبر داخل النص المنقول.

تعتمد التقنية على مبدأ جذري: استخدام tokenizers صوتية مستمرة تعمل بمعدل 7.5 هرتز فقط بدلاً من المعدلات العالية التقليدية. هذا التصميم يحافظ على جودة الصوت بينما يقلل الحمل الحاسوبي للتسلسلات الطويلة بشكل كبير. النظام يدمج نموذج لغة كبير لفهم السياق النصي مع رأس انتشار (diffusion head) لتوليد التفاصيل الصوتية عالية الدقة.

الجانب الأكثر إثارة يكمن في VibeVoice-TTS: نظام توليد كلام يمكنه إنتاج محادثات تصل إلى 90 دقيقة مع حتى 4 متحدثين مختلفين. النتيجة ليست مجرد كلام اصطناعي، بل محادثات كاملة بأصوات متسقة وتفاعل طبيعي بين الشخصيات. النظام يدعم اللغات الإنجليزية والصينية وأخرى، ويمكنه حتى إنتاج غناء عفوي.

للاستخدامات الفورية، يقدم VibeVoice-Realtime-0.5B حلاً خفيفاً بـ 0.5 مليار معامل فقط. يحول النص إلى كلام في أقل من 300 ميلي ثانية، ويدعم النصوص المتدفقة والكلام الطويل حتى 10 دقائق. منذ ديسمبر 2025، أضافت مايكروسوفت أصواتاً تجريبية متعددة اللغات في 9 لغات (الألمانية، الفرنسية، الإيطالية، اليابانية، الكورية، الهولندية، البولندية، البرتغالية، الإسبانية) و11 نمط صوتي إنجليزي مختلف.

(وفقاً لـ مايكروسوفت) النماذج متاحة عبر Hugging Face مع دعم مكتبة Transformers للتكامل المباشر. المطورون يمكنهم تجربة الأدوات عبر Google Colab أو استخدام vLLM للاستدلال السريع. الفريق يوفر أيضاً كود الضبط الدقيق للتخصيص.

التاريخ الملتبس للمشروع يكشف تحديات الذكاء الاصطناعي المسؤول. في سبتمبر 2025، سحبت مايكروسوفت كود VibeVoice-TTS من المستودع بعد اكتشاف استخدامات “لا تتماشى مع الهدف المعلن”. الشركة تؤكد أن “الاستخدام المسؤول للذكاء الاصطناعي أحد مبادئ مايكروسوفت التوجيهية”، وتحذر من أن الصوت الاصطناعي عالي الجودة يمكن “إساءة استخدامه لإنتاج محتوى صوتي مزيف مقنع للانتحال والاحتيال ونشر المعلومات المضللة”.

رغم قوة التقنية، مايكروسوفت صريحة حول القيود: النماذج “ترث أي تحيزات أو أخطاء من النموذج الأساسي Qwen2.5 1.5b”، وقد تنتج “مخرجات غير متوقعة أو منحازة أو غير دقيقة”. الشركة لا تنصح باستخدام VibeVoice في “التطبيقات التجارية أو العملية دون مزيد من الاختبار والتطوير” – هذا مشروع بحثي، ليس منتجاً جاهزاً للإنتاج.

VibeVoice يطرح سؤالاً أساسياً: هل نحن مستعدون لعصر يصبح فيه توليد محادثات صوتية طويلة ومقنعة متاحاً لأي مطور؟ التقنية مذهلة، لكن انسحاب مايكروسوفت السابق يذكرنا أن الأدوات القوية تحتاج أطر حكم أقوى.

Microsoft GitHub