نماذج Nemotron-Labs الهجينة تحقق 6.4× سرعة التوليد

🎧 استمع للملخص

بقلم: يوسف | محرر أدوات الذكاء الاصطناعي · صوت تحريري بإشراف بشري

أطلقت إنفيديا رسمياً عائلة Nemotron-Labs Diffusion، مجموعة نماذج لغة كبيرة تتحدى الافتراض الراسخ بأن توليد النصوص يجب أن يحدث رمزاً واحداً في كل مرة. النماذج الجديدة تجمع بين الطرق التقليدية التلقائية الانحدارية وتقنيات الانتشار المتطورة، محققة سرعات توليد تصل إلى 6.4 أضعاف النماذج العادية دون التضحية بالدقة (وفقاً لإنفيديا).

المشكلة التي تحلها هذه النماذج جوهرية في البنية الحالية للذكاء الاصطناعي. النماذج التقليدية تولد كل رمز اعتماداً على الرموز السابقة، مما يخلق عنق زجاجة حاسوبياً: كل رمز جديد يتطلب تحميل جميع معاملات النموذج من الذاكرة وإجراء تمريرة كاملة. في التطبيقات الحساسة للكمون، هذا يعني قضاء معظم الوقت في عمليات الذاكرة بدلاً من الحوسبة الفعلية.

الحل الذي تقدمه إنفيديا يقوم على فكرة بسيطة لكن ثورية: لماذا لا يكون النموذج الواحد قادراً على العمل بطرق متعددة حسب الحاجة؟

النمط التلقائي الانحداري – يحافظ على التوافق مع سير العمل الحالي للمطورين، يعمل من اليسار إلى اليمين مثل أي نموذج لغة تقليدي
نمط الانتشار – يولد النص كتلة بعد كتلة، يحسن 32 رمزاً معاً تدريجياً عبر خطوات متعددة حتى يصل لعتبة ثقة محددة
نمط التخمين الذاتي – يستخدم الانتشار لصياغة عدة رموز مرشحة، ثم يتحقق منها بالطريقة التقليدية، دامجاً سرعة الانتشار مع موثوقية التحقق
المرونة في الانتقال – تغيير نمط التوليد لا يتطلب سوى سطر واحد في إعدادات النشر، دون تعديل على مستوى التطبيق
التحكم في الميزانية الحاسوبية – يمكن تقليل خطوات التحسين لتوفير الحوسبة وقت التشغيل
القدرة على المراجعة – على عكس النماذج التقليدية، يمكن مراجعة الرموز المولدة مسبقاً، مما يحد من انتشار الأخطاء

مخطط يوضح الفرق بين التوليد التقليدي والتوليد الهجين في Nemotron-Labs — التوليد التقليدي مقابل النهج الهجين في Nemotron-Labs Diffusion

العائلة تضم نماذج بأحجام 3 مليارات و8 مليارات و14 مليار معاملة، كلها متاحة تحت رخصة NVIDIA Nemotron المفتوحة الملائمة تجارياً. يضاف إليها نموذج رؤية-لغة بحجم 8 مليارات معاملة متاح للأبحاث تحت رخصة NVIDIA Source Code. كل حجم متاح في نسختين: النموذج الأساسي والنسخة المحسّنة للمحادثات.

النتائج التقنية مثيرة للاهتمام. نموذج Nemotron-Labs Diffusion 8B يحقق دقة محسّنة بـ1.2% مقارنة بـ Qwen3 8B، لكن المكسب الحقيقي في السرعة. قياس “رموز كل تمريرة أمامية” (TPF) يُظهر أن نمط الانتشار يحقق 2.6 ضعف أداء النماذج التلقائية الانحدارية، بينما التخمين الذاتي يدفع هذا الرقم إلى 6 أضعاف للنسخة الخطية و6.4 أضعاف للنسخة التربيعية (وفقاً لإنفيديا).

في الاختبارات العملية على معالج B200 باستخدام مجموعة بيانات speedbench، حقق النموذج 865 رمز في الثانية، أي حوالي 4 أضعاف الأداء الأساسي التلقائي الانحداري على نفس العتاد (وفقاً لإنفيديا).

منهجية التدريب تستفيد من بحث Efficient-DLM الذي أثبت إمكانية تحويل النماذج التلقائية الانحدارية إلى نماذج انتشار عبر التدريب المستمر وتعديل آلية الانتباه. Nemotron-Labs تُدرب بهدف مشترك يجمع النهجين، محافظة على قدراتها التلقائية الانحدارية الأصلية مع إضافة إمكانيات الانتشار.

التدريب المسبق تم على 1.3 تريليون رمز من مجموعات بيانات NVIDIA Nemotron، تبعه ضبط دقيق باستخدام 45 مليار رمز من نفس المجموعات (وفقاً لإنفيديا).

مقارنة أداء الأنماط الثلاثة من ناحية السرعة والكفاءة — مقارنة شاملة لأداء أنماط التوليد الثلاثة المختلفة

للنشر العملي، إنفيديا تعمل مع SGLang لإضافة الدعم في الفرع الرئيسي قريباً. حالياً، يمكن تجربة النماذج عبر طلب على GitHub. الميزة الأنيقة أن نفس نقطة التحقق تُستخدم للأنماط الثلاثة، ويحدد سطر واحد في الإعدادات أي نمط تريد استخدامه.

إنفيديا تطلق أيضاً كود التدريب الكامل عبر إطار Megatron Bridge مع وصفات التدريب التفصيلية، بالإضافة إلى التقرير التقني الشامل الذي يغطي المنهجية والنتائج.

هذا الإطلاق يضع سؤالاً مهماً أمام مجتمع الذكاء الاصطناعي: إذا كان بإمكاننا الحصول على نفس الدقة بسرعة أكبر بكثير، فلماذا نتمسك بالطرق التقليدية؟ الإجابة ستظهر في الأشهر القادمة مع انتشار التبني، لكن إنفيديا تراهن أن المستقبل هجين.

Hugging Face Blog