تُحدَّث يومياً

مصدرُك العربي
لمستقبل الذكاء الاصطناعي

أخبار، تقارير، أدوات وتحليلات يومية — كل ما تحتاجه لمتابعة ثورة الذكاء الاصطناعي باللغة العربية

✅ تم الاشتراك!
أخبار الذكاء الاصطناعياختيار المحررين

جوجل تطلق جيما 4 12B بمعالجة مباشرة للصوت والصور

🎧 استمع للملخص

بقلم: سارة | محررة نماذج الذكاء الاصطناعي · صوت تحريري بإشراف بشري

أطلقت جوجل نموذج جيما 4 12B كأول نموذج متوسط الحجم يدعم المدخلات الصوتية الأصلية، مع قدرة على العمل محلياً على أجهزة اللاب توب بـ 16 جيجابايت رام فقط. النموذج الجديد يحقق أداء يقارب نموذج 26B MoE الأكبر مع استهلاك ذاكرة أقل بأكثر من النصف، ويعتمد على معمارية موحدة خالية من وحدات الترميز المنفصلة.

  1. البداية السريعة: جرب النموذج مباشرة عبر LM Studio أو Ollama أو Google AI Edge Gallery App، أو استخدم CLI المخصص LiteRT-LM للاختبار الفوري
  2. تحميل الأوزان: احصل على النسخ المدربة مسبقاً والمحسنة للتعليمات من Hugging Face أو Kaggle مباشرة دون قوائم انتظار
  3. التطوير المحلي: استخدم مكتبات Python مثل Hugging Face Transformers أو llama.cpp أو MLX أو SGLang أو vLLM لبناء pipeline الاستنتاج
  4. التدريب المخصص: اعتمد على Unsloth لإجراء fine-tuning سريع وفعال حسب احتياجاتك المحددة
  5. النشر السحابي: انشر النموذج على Google Cloud باستخدام Gemini Enterprise Agent Platform أو Cloud Run أو GKE للاستخدام المؤسسي
  6. بناء الوكلاء الذكية: استفد من مستودع Gemma Skills الرسمي لتطوير وكلاء ذكية متقدمة تستغل إمكانيات النموذج

ما يميز جيما 4 12B تقنياً هو إلغاء وحدات الترميز المنفصلة تماماً. للمعالجة البصرية، استبدل المطورون وحدة الترميز المعقدة بوحدة تضمين خفيفة تعتمد على ضرب مصفوفة واحدة مع التطبيع الموضعي. أما للصوت، فيتم إسقاط الإشارة الصوتية الخام مباشرة إلى نفس الفضاء الأبعادي للرموز النصية، مما يقلل زمن الاستجابة واستهلاك الذاكرة بشكل كبير.

معمارية جيما 4 12B الموحدة بدون ترميز منفصل
النموذج يعالج النصوص والصور والصوت في مسار واحد بدون وحدات ترميز منفصلة

حققت نماذج جيما 4 أكثر من 150 مليون تحميل (وفقاً لجوجل) من مجتمع المطورين العالمي. المشاريع المبنية تتراوح من الأذرع الروبوتية القابلة للارتداء للمساعدة الجسدية إلى حلول الأمان المؤسسي المدعومة بالذكاء الاصطناعي، مما يؤكد مرونة المنصة للتطبيقات العملية المتنوعة.

جدول مقارنة أداء جيما 4 12B
النموذج يحقق أداء مقارب للنماذج الأكبر مع استهلاك ذاكرة محدود

النموذج متاح تحت رخصة Apache 2.0 المفتوحة ويدعم تقنية Multi-Token Prediction drafters لتقليل زمن الاستجابة. للمطورين الذين يبحثون عن دليل تفصيلي، توفر جوجل دليل المطور المصاحب ونوت بوك للبداية السريعة.

التحدي الوحيد هو تحسين النموذج للغات غير الإنجليزية، خاصة العربية، حيث قد تحتاج التطبيقات المحلية لمزيد من الضبط الدقيق لتحقيق أفضل أداء مع المحتوى العربي متعدد الوسائط.

Google Blog

مقالات ذات صلة

زر الذهاب إلى الأعلى