مولدات MTP تسرع نماذج Gemma 4 بـ3 أضعاف

🎧 استمع للملخص

بقلم: سارة | محررة نماذج الذكاء الاصطناعي · صوت تحريري بإشراف بشري

أطلقت غوغل اليوم مولدات Multi-Token Prediction (MTP) لعائلة Gemma 4، وهي تقنية speculative decoding تحقق تسريعاً يصل إلى 3 أضعاف في سرعة الاستنتاج دون أي تدهور في جودة المخرجات أو منطق التفكير.

رسم بياني يوضح تسريع نماذج <a href= — تسريع نماذج Gemma 4 باستخدام مولدات MTP عبر منصات مختلفة

تعالج هذه التقنية مشكلة جوهرية في نماذج اللغة الكبيرة: الاستنتاج التقليدي محدود بسرعة النقل من الذاكرة، مما يخلق عنق زجاجة كبيراً في زمن الاستجابة. المعالج يقضي معظم وقته في نقل مليارات المعاملات من VRAM إلى وحدات الحوسبة فقط لتوليد رمز واحد، ما يؤدي إلى استغلال ضعيف للموارد الحاسوبية وزمن استجابة عالٍ خاصة على الأجهزة الاستهلاكية.

آلية العمل: تفصل speculative decoding عملية توليد الرموز عن التحقق منها. يتم إقران نموذج ثقيل (مثل Gemma 4 31B) مع مولد خفيف (نموذج MTP) لاستغلال الحوسبة العاطلة في “التنبؤ” بعدة رموز مستقبلية دفعة واحدة.
التحقق المتوازي: النموذج الرئيسي يتحقق من جميع الرموز المقترحة بشكل متوازي. إذا وافق على المسودة، يقبل التسلسل الكامل في تمرير واحد ويولد رمزاً إضافياً في نفس الوقت.
استغلال الذاكرة المشتركة: نماذج المسودة تستخدم بسلاسة تفعيلات النموذج المستهدف وتشارك KV cache، ما يعني عدم إضاعة الوقت في إعادة حساب السياق الذي فهمه النموذج الأكبر بالفعل.
تحسينات خاصة للنماذج الصغيرة: للنماذج E2B وE4B المخصصة للحافة، تم تطبيق تقنية clustering فعالة في embedder لتسريع التوليد أكثر حيث يصبح حساب logit النهائي عنق زجاجة كبيراً.
تحسينات خاصة بالأجهزة: نموذج 26B mixture-of-experts يحقق تسريعاً ~2.2x محلياً على Apple Silicon عند معالجة طلبات متعددة بدلاً من طلب واحد، مع مكاسب مماثلة على Nvidia A100.

المولدات متاحة الآن تحت نفس رخصة Apache 2.0 مفتوحة المصدر لـGemma 4. يمكن تحميل أوزان النماذج من Hugging Face وKaggle، والبدء فوراً في التجريب مع transformers وMLX وVLLM وSGLang وOllama أو تجربتها مباشرة على Google AI Edge Gallery لأندرويد وiOS.

التطوير يستهدف ثلاث حالات استخدام محورية: تحسين الاستجابة للدردشات الفورية وتطبيقات الصوت الغامرة والوكلاء الذكيين، تسريع التطوير المحلي لتشغيل نماذج 26B MoE و31B Dense على الحاسوب الشخصي بسرعة غير مسبوقة، وتعظيم فائدة نماذج E2B وE4B على أجهزة الحافة مع الحفاظ على البطارية.

الأرقام المنشورة تعتمد على اختبارات باستخدام LiteRT-LM وMLX وHugging Face Transformers وvLLM. غوغل لم تكشف بعد عن خطط لدمج هذه التقنية في منتجاتها السحابية المدفوعة، ما يترك سؤالاً حول كيفية استفادة المطورين الذين يعتمدون على Google Cloud من هذا التسريع.

Google Blog