Gemini 3.1 Flash TTS بتحكم صوتي متقدم من جوجل

🎧 استمع للملخص

بقلم: سارة | محررة نماذج الذكاء الاصطناعي · صوت تحريري بإشراف بشري

كشفت جوجل النقاب عن Gemini 3.1 Flash TTS، نموذجها الجديد لتحويل النص إلى كلام، والذي يقدم مستوى غير مسبوق من التحكم في الأداء الصوتي عبر نظام “العلامات الصوتية” المبتكر. يتيح هذا النظام للمستخدمين إدراج أوامر باللغة الطبيعية مباشرة في النص لتوجيه نبرة الصوت وإيقاعه وطريقة الأداء.

سجل النموذج أداءً متميزاً بنتيجة 1,211 نقطة إيلو على مقياس Artificial Analysis TTS للمقارنات العمياء (وفقاً لجوجل ديب مايند)، مما وضعه في “الربع الأكثر جاذبية” للجمع بين الجودة العالية والتكلفة المنخفضة. النموذج متاح الآن في معاينة للمطورين عبر Google AI Studio وGemini API، وللمؤسسات عبر Vertex AI، بالإضافة لمستخدمي Workspace عبر Google Vids.

توجيه المشهد والحوار: يمكن تعريف البيئة وإعطاء تعليمات حوار محددة، مما يساعد الشخصيات على البقاء “في الشخصية” والتفاعل طبيعياً عبر عدة جولات محادثة.
تخصيص على مستوى المتحدث: إمكانية إنشاء شخصيات بملفات صوتية فريدة، مع تحديد “ملاحظات المخرج” لضبط الإيقاع والنبرة واللهجة، واستخدام علامات مدمجة لتغيير التعبير وسط الجملة.
تصدير سلس للإعدادات: بمجرد إتمام الأداء، يمكن تصدير المعاملر الدقيقة كأكواد Gemini API لضمان أصوات ثابتة ومميزة عبر مشاريع ومنصات مختلفة.
دعم متعدد اللغات: تشغيل عالي الدقة عبر أكثر من 70 لغة مع تحكم متقدم في الأسلوب والإيقاع واللهجة للأسواق الرئيسية.
حماية بعلامة SynthID المائية: كل ملف صوتي مُولد يحمل علامة مائية غير مرئية مدمجة مباشرة في الصوت، تتيح الكشف الموثوق عن المحتوى المُولد بالذكاء الاصطناعي لمنع المعلومات المضللة.

يبرز النموذج في قدرته على الحوار متعدد المتحدثين الأصلي، حيث يشير المختبرون المبكرون من المطورين والمؤسسات إلى أن العلامات الصوتية توفر مستوى جديد من الدقة الإبداعية، محولة النص البسيط إلى أداء صوتي عالي الدقة. تتيح واجهة Google AI Studio للمطورين اتخاذ دور “المخرج” مع عناصر تحكم قابلة للتخصيص تضعهم في مقعد القيادة الإبداعية.

رغم هذه الإمكانيات المتقدمة، يثار تساؤل حول منحنى التعلم المطلوب لإتقان استخدام نظام العلامات الصوتية بفعالية، خاصة وأن التحكم الدقيق في التعبير الصوتي قد يتطلب خبرة في إخراج الأداء الصوتي أكثر من مهارات البرمجة التقليدية.

Google DeepMind