جوجل تطلق أقوى نموذج للترجمة الصوتية الفورية

🎧 استمع للملخص

بقلم: سارة | محررة نماذج الذكاء الاصطناعي · صوت تحريري بإشراف بشري

تريليون كلمة شهرياً – هذا ما تترجمه منتجات جوجل حالياً عبر خدماتها المختلفة (وفقاً لـ DeepMind). اليوم، تتخطى الشركة حدود الترجمة النصية لتدخل عصر الترجمة الصوتية الفورية مع إطلاق Gemini 3.5 Live Translate، النموذج الذي يكسر حاجز التأخير في الترجمة الصوتية.

شعار Gemini 3.5 Live Translate مع رمز البريق — النموذج الجديد يحافظ على نبرة وإيقاع المتحدث الأصلي

النموذج الجديد يعمل بطريقة مختلفة تماماً عن أنظمة الترجمة التقليدية التي تنتظر صمت المتحدث لبدء الترجمة. بدلاً من ذلك، يولد Gemini 3.5 Live Translate الكلام المترجم بشكل مستمر، مع الحفاظ على التوازن الدقيق بين انتظار السياق لتحسين الجودة والترجمة الفورية للبقاء متزامناً مع المتحدث. النتيجة: صوت مترجم بلا توقفات محرجة مع تأخير لا يتجاوز ثوانٍ قليلة.

ما يميز هذا النموذج ليس فقط السرعة، بل قدرته على اكتشاف أكثر من 70 لغة تلقائياً وتوليد كلام مترجم يحافظ على نبرة المتحدث وإيقاعه وطبقة صوته الأصلية. كما يتعامل مع المدخلات متعددة اللغات دون الحاجة لتهيئة الإعدادات يدوياً، ويتميز بمقاومة الضوضاء للعمل في البيئات الصاخبة وغير المتوقعة.

يصل النموذج للمستخدمين عبر ثلاث مسارات متوازية. للمطورين، متاح الآن في المعاينة العامة عبر Gemini Live API و Google AI Studio، حيث تدعمه منصات مثل Agora وFishjam وLiveKit وPipecat وVision Agents للتعامل مع البنية التحتية المعقدة لتدفق الوسائط في الوقت الفعلي. هذا يتيح للمطورين التركيز على تجربة المستخدم بدلاً من التحديات التقنية.

في قطاع الأعمال، تختبر شركة Grab – التي تدير أكثر من 10 مليون مكالمة صوتية شهرياً عبر خدمتها (وفقاً لـ DeepMind) – النموذج لتمكين التواصل متعدد اللغات بين السائقين والمسافرين في الوقت شبه الفعلي. هذا التطبيق العملي يكشف الإمكانات الحقيقية للتقنية في سيناريوهات الحياة الواقعية.

أما الترقية الأكبر فتأتي في Google Meet، حيث سيحل النموذج الجديد محل نظام الترجمة الصوتية الحالي. التحسينات تشمل زيادة اللغات المدعومة من 5 لغات فقط إلى أكثر من 70 لغة، وتمكين المحادثات عبر أكثر من 2000 مجموعة لغوية في الاجتماع الواحد مقارنة بالنظام السابق الذي يقتصر على الترجمة من وإلى الإنجليزية فقط. الواجهة الجديدة توفر وصولاً فورياً لميزة الترجمة الصوتية. هذا التحديث يبدأ بالمعاينة الخاصة لعملاء Google Workspace المختارين هذا الشهر.

للجمهور العام، يتوفر النموذج الآن في تطبيق Google Translate على أندرويد و iOS عالمياً. عند استخدام ميزة Live translate، يكفي توصيل أي سماعة رأس لتجربة ترجمة أكثر سلاسة تحاكي نبرة المتحدث عبر أكثر من 70 لغة.

الجديد تماماً هو “وضع الاستماع” لمستخدمي أندرويد، والذي يتيح سماع الترجمات مباشرة عبر سماعة الهاتف. يحمل المستخدم الهاتف على أذنه تماماً كما في المكالمات العادية، ويتدفق الصوت المترجم مباشرة إليه. هذه التجربة الجديدة مفيدة عندما تريد سماع الترجمات بسرعة دون أن يسمعها الآخرون، وعندما لا تكون السماعات متوفرة.

الشركات التي اختبرت النموذج مبكراً، بما في ذلك CJ ENM وLiveKit، قدمت تقييمات إيجابية تسلط الضوء على جودة الترجمة المتقدمة ودقتها وزمن الاستجابة المنخفض (وفقاً لـ DeepMind).

جميع الأصوات المولدة تحمل علامة SynthID المائية، والتي تُنسج مباشرة في الإخراج الصوتي بطريقة غير مرئية. هذه العلامة تضمن بقاء المحتوى المولد بالذكاء الاصطناعي قابلاً للاكتشاف للمساعدة في منع المعلومات المضللة.

لكن هناك قيود لم تناقشها جوجل بوضوح. ما مدى دقة النموذج مع اللهجات المحلية القوية؟ وكيف يتعامل مع المصطلحات التقنية المتخصصة؟ وما هي قيود الاستخدام في البلدان التي تفرض قيوداً على الذكاء الاصطناعي؟ هذه التفاصيل ستتضح مع التطبيق الواسع.

DeepMind