Gemini Omni من جوجل يحول النص والصور إلى فيديو ذكي

بقلم: سارة | محررة نماذج الذكاء الاصطناعي · صوت تحريري بإشراف بشري

كشفت جوجل النقاب عن Gemini Omni في مؤتمر I/O للمطورين، وهي عائلة جديدة من النماذج متعددة الوسائط تمثل قفزة نوعية في مجال إنتاج المحتوى المرئي. النموذج لا يقتصر على دمج النصوص والصور والصوت والفيديو، بل يحللها جميعاً بشكل متزامن لإنتاج محتوى متسق يعكس فهماً للفيزياء والثقافة والتاريخ والعلوم.

يقول الرئيس التنفيذي سوندار بيتشاي أن Omni قادر على “إنتاج أي شيء من أي مدخل”، محققاً بذلك الهدف الذي حددته جوجل قبل ثلاث سنوات عند إطلاق Gemini الأول: بناء نموذج لغوي كبير متعدد الوسائط يمكنه التعامل مع كل أشكال المحتوى.

تشرح نيكول بريختوفا، مديرة إدارة المنتجات في DeepMind، أن (وفقاً لـ TechCrunch) الإطلاق الحالي يتجاوز كونه مجرد تحديث لنموذج Veo الحالي: “إنه الخطوة التالية نحو دمج ذكاء Gemini مع قدرات الرندر في نماذجنا الإعلامية”.

عرض توضيحي لقدرات Gemini Omni Flash في تحويل الوصف النصي إلى فيديو متحرك — مثال على قدرات Gemini Omni في تحويل النص إلى حركة واقعية للكائنات

قدم كوراي كافوكجيوغلو، كبير التقنيين في DeepMind، مثالاً واضحاً على قدرات النموذج. عندما طُلب منه إنتاج “فيديو كلايميشن يشرح طي البروتين”، أنتج Omni بسرعة مقطع فيديو بتقنية stop-motion مع تعليق صوتي دقيق علمياً: “تبدأ البروتينات كسلاسل من الأحماض الأمينية. تنطوي في أنماط مثل الحلزون الألفا والأقسام المسطحة المسماة صفائح بيتا، مشكلة شكلاً ثلاثي الأبعاد مثالياً”.

النموذج الأول المتاح اليوم، Gemini Omni Flash, يبدأ عمله في تطبيق Gemini و YouTube Shorts ومنصة Flow الإبداعية. يقتصر Flash حالياً على إنتاج مقاطع بطول 10 ثوانِ، قرار تتخذه جوجل لضمان وصوله لأكبر عدد ممكن من المستخدمين بدلاً من كونه قيداً تقنياً. المقاطع الأطول ستصبح متاحة قريباً.

يتميز Omni أيضاً بقدرته على تحرير الصور باستخدام أوامر نصية بسيطة، على غرار أداة Nano Banana من جوجل. لكن الإمكانيات المستقبلية أوسع: إنتاج الصور من الصوت، أو الصوت من الفيديو، في خطوة نحو ما يسميه بيتشاي “محاكاة الواقع” بدلاً من مجرد “توقع النصوص”.

الأفاتار الرقمية مع ضمانات الأمان

يستطيع المستخدمون إنشاء مقاطع فيديو بأفاتار رقمية شخصية، ميزة تشبه ما قدمته خاصية Cameos في تطبيق Sora من OpenAI قبل إيقافه. لكن جوجل تتخذ إجراءات صارمة لمنع التزييف العميق: يجب على المستخدمين المرور بعملية إعداد مخصصة تتضمن تسجيل أنفسهم ونطق سلسلة من الأرقام، قبل حفظ الأفاتار للاستخدام المستقبلي.

علاوة على ذلك، تحمل كل مقاطع الفيديو المنتجة بـ Omni علامة SynthID المائية الرقمية من جوجل، التي تسمح بالتحقق من كون الفيديو مُنتج بواسطة منتجات Gemini. هذه الخطوة ضرورية في ظل تزايد المخاوف حول انتشار المحتوى المزيف والحاجة لآليات تتبع موثوقة.

استراتيجية المستهلكين أولاً

تركز جوجل بوضوح على جذب المستهلكين العاديين قبل الاستخدامات المهنية. الأمثلة التي قدمتها بريختوفا وجابي بارث-مارون، المهندس الباحث في DeepMind، كانت شخصية تماماً: إنتاج فيديو لنفسك وأنت تفوز بجائزة أو تسافر إلى القمر، أو إزالة المارة غير المرغوب فيهم من خلفية مقطع مصور في العطلة.

يصف بارث-مارون هذه الاستخدامات ببساطة: “إنها مثل الميمز الشخصية”. تؤكد بريختوفا أن هذا التوجه مقصود: “ركزنا بالتأكيد على جعل هذا سهل الاستخدام للمستهلكين. لم تنجح نماذج فيديو كثيرة في عبور هذه الفجوة مع المستهلكين، لذا هذه محاولتنا لفعل ذلك”.

لكن سهولة الاستخدام تحمل تحذيراً مهماً: يجب أن تكون أوامر التحرير شديدة الدقة والتحديد، وإلا سيتدخل Omni بشكل مفرط أو يغير عناصر أراد المستخدم الاحتفاظ بها – مشكلة واجهها مستخدمو Nano Banana من قبل.

الآفاق المهنية والتجارية

رغم التركيز الحالي على المستهلكين، تدرك جوجل تماماً الإمكانيات المهنية والتجارية لـ Omni. ستتيح الشركة الوصول للنموذج عبر API خلال الأسابيع القادمة، ما يفتح المجال أمام المعلنين وصانعي الأفلام لسير عمل متكامل ومتعدد الوسائط قد يكون ثورياً.

تفتخر بريختوفا بقدرات النموذج على رندر النصوص بدقة: “نحن فخورون فعلاً بقدرات النموذج على رندر النصوص، وهو مفيد حقاً لأشياء مثل الإعلان. إذا كنت تريد منتجاً في مكان ما، أو حتى مجرد شعار، يجب أن يكون دقيقاً”. وتضيف: “نتوقع بالتأكيد أن صانعي الأفلام وأنواع أخرى من المبدعين ستستخدم هذا النموذج أيضاً”.

شركة Luma AI الناشئة تعمل على شيء مشابه: أداة وكيلة يمكنها إنتاج حملة إعلانية كاملة بناء على موجز قصير وصورة منتج، مدعومة بنموذجها “الموحد” الخاص. هذا التطوير المتوازي يشير إلى أن سباق بناء نماذج إنتاج المحتوى الشاملة يتسارع بقوة.

للاستخدامات المهنية الأكثر تطلباً، تُعد جوجل نموذج Omni Pro الذي من المفترض أن يؤدي بشكل أفضل عبر كل مهام Omni. لم تحدد الشركة موعد إطلاق Pro، لكن بريختوفا قالت أنه سيحدث عندما “نشعر أننا في نقطة حيث لدينا تطور جوهري فوق Flash”.

أداة إنتاج الأفاتار متاحة بالفعل على YouTube Shorts، وجوجل تتوقع أن ينتبه لها منشئو المحتوى بسرعة. الرهان الحقيقي أن سير العمل المتكامل والشامل قد يكون تطوراً جذرياً للمعلنين وصانعي الأفلام – إذا تمكن Omni من الحفاظ على جودته مع زيادة التعقيد.

TechCrunch