جيما 4 12B نموذج جوجل بمعالجة موحدة للوسائط المتعددة

🎧 استمع للملخص

بقلم: سارة | محررة نماذج الذكاء الاصطناعي · صوت تحريري بإشراف بشري

أطلقت جوجل نموذج جيما 4 12B كأول نموذج متوسط الحجم يدعم المدخلات الصوتية الأصلية، مع قدرة على العمل محلياً على أجهزة اللاب توب بـ 16 جيجابايت رام فقط. النموذج الجديد يحقق أداء يقارب نموذج 26B MoE الأكبر مع استهلاك ذاكرة أقل بأكثر من النصف، ويعتمد على معمارية موحدة خالية من وحدات الترميز المنفصلة.

البداية السريعة: جرب النموذج مباشرة عبر LM Studio أو Ollama أو Google AI Edge Gallery App، أو استخدم CLI المخصص LiteRT-LM للاختبار الفوري
تحميل الأوزان: احصل على النسخ المدربة مسبقاً والمحسنة للتعليمات من Hugging Face أو Kaggle مباشرة دون قوائم انتظار
التطوير المحلي: استخدم مكتبات Python مثل Hugging Face Transformers أو llama.cpp أو MLX أو SGLang أو vLLM لبناء pipeline الاستنتاج
التدريب المخصص: اعتمد على Unsloth لإجراء fine-tuning سريع وفعال حسب احتياجاتك المحددة
النشر السحابي: انشر النموذج على Google Cloud باستخدام Gemini Enterprise Agent Platform أو Cloud Run أو GKE للاستخدام المؤسسي
بناء الوكلاء الذكية: استفد من مستودع Gemma Skills الرسمي لتطوير وكلاء ذكية متقدمة تستغل إمكانيات النموذج

ما يميز جيما 4 12B تقنياً هو إلغاء وحدات الترميز المنفصلة تماماً. للمعالجة البصرية، استبدل المطورون وحدة الترميز المعقدة بوحدة تضمين خفيفة تعتمد على ضرب مصفوفة واحدة مع التطبيع الموضعي. أما للصوت، فيتم إسقاط الإشارة الصوتية الخام مباشرة إلى نفس الفضاء الأبعادي للرموز النصية، مما يقلل زمن الاستجابة واستهلاك الذاكرة بشكل كبير.

معمارية جيما 4 12B الموحدة بدون ترميز منفصل — النموذج يعالج النصوص والصور والصوت في مسار واحد بدون وحدات ترميز منفصلة

حققت نماذج جيما 4 أكثر من 150 مليون تحميل (وفقاً لجوجل) من مجتمع المطورين العالمي. المشاريع المبنية تتراوح من الأذرع الروبوتية القابلة للارتداء للمساعدة الجسدية إلى حلول الأمان المؤسسي المدعومة بالذكاء الاصطناعي، مما يؤكد مرونة المنصة للتطبيقات العملية المتنوعة.

جدول مقارنة أداء جيما 4 12B — النموذج يحقق أداء مقارب للنماذج الأكبر مع استهلاك ذاكرة محدود

النموذج متاح تحت رخصة Apache 2.0 المفتوحة ويدعم تقنية Multi-Token Prediction drafters لتقليل زمن الاستجابة. للمطورين الذين يبحثون عن دليل تفصيلي، توفر جوجل دليل المطور المصاحب ونوت بوك للبداية السريعة.

التحدي الوحيد هو تحسين النموذج للغات غير الإنجليزية، خاصة العربية، حيث قد تحتاج التطبيقات المحلية لمزيد من الضبط الدقيق لتحقيق أفضل أداء مع المحتوى العربي متعدد الوسائط.

Google Blog