DiffusionGemma يعيد تعريف سرعة توليد النصوص بـ4 أضعاف

🎧 استمع للملخص

بقلم: يوسف | محرر أدوات الذكاء الاصطناعي · صوت تحريري بإشراف بشري

تخلت ديب مايند عن المنطق التقليدي لتوليد النصوص وأطلقت DiffusionGemma، نموذج تجريبي مفتوح المصدر يولد كتلاً نصية كاملة من 256 رمزاً دفعة واحدة بدلاً من الكتابة كلمة تلو الأخرى. النتيجة؟ سرعة توليد أسرع بـ4 مرات من النماذج اللغوية الكبيرة التقليدية على وحدات معالجة الرسوميات المخصصة، مع أداء يصل إلى 1000 رمز في الثانية على NVIDIA H100 و700 رمز في الثانية على GeForce RTX 5090 (وفقاً لديب مايند).

النموذج الجديد ليس مجرد تحسين تدريجي، بل إعادة تصميم جذرية لآلية توليد النصوص. بينما تعمل النماذج التقليدية كآلة طباعة تكتب كلمة واحدة من اليسار إلى اليمين، يشبه DiffusionGemma مطبعة ضخمة تطبع الفقرة كاملة. هذا التحول يحل مشكلة أساسية في الاستنتاج المحلي: استغلال وحدات معالجة الرسوميات بالكامل بدلاً من تركها تنتظر “ضغطة المفتاح” التالية.

واجهة DiffusionGemma الرسمية — DiffusionGemma يعيد تعريف سرعة توليد النصوص بالمعالجة المتوازية

قم بتحميل النموذج: احصل على أوزان النموذج التجريبي المُطلق تحت رخصة Apache 2.0 المفتوحة مباشرة من منصة Hugging Face
جهز بيئة التشغيل: تأكد من توفر 18 جيجابايت VRAM على الأقل لتشغيل النموذج المضغوط، حيث يحتوي على 26 مليار معامل كنموذج خليط خبراء (MoE) لكنه ينشط 3.8 مليار معامل فقط أثناء الاستنتاج
اختر أداة التشغيل: استخدم MLX أو vLLM (بدعم من Red Hat) أو Hugging Face Transformers لتشغيل النموذج بكفاءة، مع دعم قادم لـllama.cpp
استكشف التطبيقات المتخصصة: ركز على السيناريوهات التي تُعطي الأولوية للسرعة مثل التحرير السريع والتكرار الفوري وملء الفجوات البرمجية، حيث يتفوق الانتباه ثنائي الاتجاه
اضبط النموذج دقيقاً: استخدم Unsloth أو Hackable Diffusion لتحسين الأداء في مهام محددة، كما فعلت Unsloth في تدريب النموذج على حل السودوكو
حسن للأجهزة المناسبة: استفد من التحسينات المتخصصة لوحدات NVIDIA بما في ذلك الدعم الأصلي لـNVFP4 (نقطة عائمة 4-بت) لتسريع الإنتاجية مع الحفاظ على الدقة

نتائج اختبارات أداء DiffusionGemma — تظهر النتائج تفوق DiffusionGemma في السرعة مع تنازلات في الجودة مقارنة بالنماذج التقليدية

تقنية انتشار النص تعمل بمنطق مشابه لمولدات الصور الذكية. يبدأ النموذج بلوحة من الرموز العشوائية، ثم يقوم بتمريرات متعددة لتحسين النص تدريجياً. في كل تمريرة، يثبت الرموز الصحيحة ويستخدمها كأدلة سياقية لتحسين بقية النص، حتى يتقارب إلى جودة عالية. هذا المبدأ يحول عنق الزجاجة من عرض النطاق الترددي للذاكرة إلى القدرة الحاسوبية، مما يستفيد من القوة الكاملة لوحدات معالجة الرسوميات.

لكن هذا التسارع لا يأتي مجاناً. جودة الإخراج الإجمالية لـDiffusionGemma أقل من نماذج Gemma 4 التقليدية، مما يجعله مناسباً للتطبيقات التي تُركز على السرعة والتفاعل الفوري وليس الجودة القصوى. ديب مايند صريحة في توصيتها: استخدم نماذج Gemma 4 التقليدية للتطبيقات الإنتاجية التي تتطلب أقصى جودة، واتجه لـDiffusionGemma في السيناريوهات السريعة والتفاعلية.

التسارع مُحسن للاستنتاج المحلي ومنخفض التزامن تحديداً. في خدمات السحابة عالية الطلب، تستطيع النماذج التقليدية استغلال الحاسوب بكفاءة من خلال تجميع آلاف الطلبات، مما يقلل من فائدة المعالجة المتوازية ويمكن أن يزيد تكاليف الخدمة. الفائدة الحقيقية تظهر عندما تريد تشغيل النموذج محلياً على جهازك للتطبيقات التفاعلية.

DeepMind Blog