أخبار الذكاء الاصطناعياختيار المحررين

جوجل تطلق نموذج جيميني للتضمين متعدد الوسائط الأول من نوعه

جوجل تطلق نموذج جيميني للتضمين متعدد الوسائط الأول من نوعه

أطلقت جوجل نموذج Gemini Embedding 2 كأول نموذج تضمين متعدد الوسائط بشكل أساسي. يدعم النموذج النصوص والصور والفيديو والصوت والمستندات في مساحة تضمين موحدة. وبالتالي يمكّن المطورين من إجراء عمليات البحث والتصنيف عبر أنواع مختلفة من الوسائط.

ماذا حدث؟

أعلنت شركة جوجل عن إطلاق نموذج Gemini Embedding 2 في معاينة عامة عبر واجهة برمجة التطبيقات Gemini API ومنصة Vertex AI. يدعم النموذج النصوص بحد أقصى 8192 رمز مميز للمدخلات. كما يعالج حتى 6 صور لكل طلب بصيغ PNG وJPEG. وفضلاً عن ذلك، يدعم مقاطع فيديو تصل إلى 120 ثانية بصيغ MP4 وMOV. يتميز النموذج بقدرته على معالجة البيانات الصوتية مباشرة دون الحاجة لتحويلها إلى نصوص. بالإضافة إلى ذلك، يمكنه تضمين ملفات PDF تصل إلى 6 صفحات. يدعم النموذج أكثر من 100 لغة (بحسب المصدر). كما يستخدم تقنية Matryoshka Representation Learning لتوفير مرونة في أبعاد الإخراج من 3072 بُعد افتراضي إلى 768 بُعد. تتيح جوجل ديب مايند استخدام النموذج الآن للمطورين في المعاينة العامة.

السياق والمشهد الأشمل

يأتي إطلاق Gemini Embedding 2 في وقت تتسارع فيه الشركات التقنية لتطوير نماذج متعددة الوسائط. في حين أن النماذج السابقة ركزت على النصوص فقط، يهدف هذا النموذج لسد الفجوة بين أنواع الوسائط المختلفة. وتجدر الإشارة إلى أن المنافسين مثل أوبن إيه آي وأنثروبيك يطورون حلولاً مماثلة. ومع ذلك، يبرز نموذج جوجل بدعمه الأصلي للمدخلات المتداخلة. نتيجةً لذلك، يمكن للمطورين إرسال مزيج من النص والصور في طلب واحد. كما أن استخدام معمارية Gemini يوفر فهماً متقدماً للعلاقات المعقدة بين أنواع الوسائط المختلفة. وبالتالي يفتح إمكانيات جديدة للتطبيقات المتطورة في مجال الذكاء الاصطناعي.

لماذا يهم؟

يوفر النموذج للمطورين أداة موحدة للتعامل مع البيانات متعددة الأنواع. وبالتالي يبسط عمليات التطوير المعقدة التي كانت تتطلب أدوات منفصلة لكل نوع وسائط. في المقابل، يمكن للشركات الاستفادة من تحسين أنظمة البحث الدلالي وتطبيقات الجيل المعزز بالاسترجاع (RAG). كما أن الدعم للغات متعددة يفتح أسواقاً جديدة للتطبيقات الذكية. على سبيل المثال، أفادت شركة Paramount Skydance بتحقيق معدل استرجاع 85.3% للبحث النصي في الفيديو (بحسب المصدر). وفضلاً عن ذلك، تتيح تقنية التضمين المرن للشركات موازنة الأداء مع تكاليف التخزين حسب احتياجاتها.

ما التالي؟

يمكن للمطورين البدء فوراً باستخدام النموذج عبر واجهات برمجة التطبيقات المتاحة. وتجدر الإشارة إلى أن جوجل توفر أدوات تطوير تفاعلية عبر Colab notebooks. بالإضافة إلى ذلك، يدعم النموذج منصات شائعة مثل LangChain وLlamaIndex. نتيجةً لذلك، يُتوقع تبني واسع من المطورين في الأشهر القادمة. أخبار الذكاء الاصطناعي تشير إلى أن هذا التطور سيحفز المنافسين على إطلاق حلول مماثلة. في المقابل، ستركز الشركات على تعلم واستخدام الذكاء الاصطناعي الجديد لتحسين منتجاتها وخدماتها.

أبرز النقاط

  • إطلاق أول نموذج تضمين متعدد الوسائط أصلياً من جوجل يدعم النصوص والصور والفيديو والصوت
  • يبسط تطوير التطبيقات المعقدة ويحسن أداء البحث الدلالي وأنظمة RAG
  • توفر معاينة عامة فورية للمطورين مع دعم للمنصات الشائعة وأدوات التطوير التفاعلية

مقالات ذات صلة

زر الذهاب إلى الأعلى