جوجل تطلق Gemma 4 12B نموذج ذكي محلي متعدد الوسائط

🎧 استمع للملخص

بقلم: يوسف | محرر أدوات الذكاء الاصطناعي · صوت تحريري بإشراف بشري

طرحت جوجل ديب مايند نموذجها Gemma 4 12B الجديد كأول نموذج متوسط الحجم يدعم المدخلات الصوتية الأصلية، مع قدرة على العمل محلياً على الأجهزة التي تحتوي 16 جيجابايت من الذاكرة فقط. يأتي النموذج بمعمارية موحدة خالية من مشفرات منفصلة للصور والصوت، مما يقلل زمن الاستجابة ويوفر استهلاك الذاكرة.

ما يميز Gemma 4 12B هو تقنية Multi-Token Prediction (MTP) المدمجة التي تسرع الاستجابات، بالإضافة لأداء مقارب لنموذج 26B MoE الأكبر رغم استهلاكه أقل من نصف البصمة الذاكرية. تجاوزت نماذج سلسلة Gemma 4 (وفقاً لجوجل ديب مايند) 150 مليون تحميل، حيث استخدمها المطورون في بناء تطبيقات متنوعة من الأذرع الروبوتية القابلة للارتداء إلى أنظمة الأمان المؤسسية المدعومة بالذكاء الاصطناعي.

معمارية موحدة خالية من المشفرات المنفصلة – يتعامل النموذج مع الصور عبر وحدة تضمين خفيفة تتكون من ضرب مصفوفة واحدة فقط مع التطبيع، بينما يعالج الصوت عبر إسقاط الإشارة الخام مباشرة لنفس الفضاء البُعدي للنصوص
استدلال محلي بـ 16 جيجابايت رام – يعمل النموذج على أجهزة الكمبيوتر المحمولة الاستهلاكية مع 16 جيجابايت من ذاكرة VRAM أو الذاكرة الموحدة، مما يجعل القدرات المتقدمة متاحة محلياً دون الحاجة لخوادم سحابية
أداء مقارب للنماذج الأكبر – يحقق معايير أداء قريبة من نموذج 26B MoE على الاختبارات المعيارية، مع قدرات استدلال متعددة الخطوات وسير عمل الوكلاء الذكية
دعم شامل للمطورين – متوفر برخصة Apache 2.0 مع دعم كامل عبر LM Studio وOllama وHugging Face وMLX وvLLM وUnsloth للضبط الدقيق
مكتبة Gemma Skills الرسمية – تتضمن مجموعة مهارات مصممة خصيصاً لتمكين الوكلاء من البناء باستخدام نماذج Gemma المطورة

رسم بياني يوضح معمارية Gemma 4 12B الموحدة — معمارية Gemma 4 12B الموحدة التي تدمج النص والصوت والصور في نموذج واحد

الجانب التقني الأكثر إثارة يكمن في إلغاء مشفرات الوسائط المتعددة التقليدية التي تزيد زمن الاستجابة واستهلاك الذاكرة. بدلاً من ذلك، استبدلت جوجل مشفر الرؤية بوحدة تضمين خفيفة تحتوي ضرب مصفوفة واحد مع التضمين الموضعي والتطبيع، بينما أزالت مشفر الصوت كلياً وأسقطت الإشارة الصوتية الخام مباشرة لنفس الفضاء البُعدي المستخدم للنصوص.

يمكن للمطورين تجربة النموذج فوراً عبر LM Studio أو Ollama أو تحميل الأوزان المدربة مسبقاً من Hugging Face وKaggle. كما تدعم جوجل النشر الإنتاجي عبر Gemini Enterprise Agent Platform Model Garden وCloud Run وGKE لمن يحتاج حلول مؤسسية قابلة للتطوير.

القيد الوحيد الواضح هو اقتصار دعم الصوت على الإدخال فقط حالياً، دون قدرة على توليد مخرجات صوتية، مما يجعله مناسباً أكثر لتطبيقات الفهم والتحليل من التفاعل الصوتي المكتمل.

Google DeepMind Blog