Diffusion Transformers: حل مشكلة الرموز الشاذة

🎧 استمع للملخص

بقلم: نور | محررة الأبحاث والدراسات · صوت تحريري بإشراف بشري

نماذج Diffusion Transformers التي تُستخدم في توليد الصور تعاني من مشكلة خفية تؤثر على جودة النتائج: ظهور رموز شاذة (outlier tokens) تحصل على انتباه مفرط من النموذج رغم أنها تحمل معلومات محلية قليلة. بحث جديد من فريق ضم باحثين من Xiaoyu Wu وYifei Wang وآخرين حلل هذه الظاهرة بعمق وطور حلاً عملياً يُسمى Dual-Stage Registers (DSR) (وفقاً للدراسة المنشورة على ArXiv).

الاكتشاف الأساسي أن مشكلة الرموز الشاذة لا تقتصر على مكون واحد بل تظهر في نقطتين حرجتين من خط إنتاج RAE-DiT: مشفرات Vision Transformers المدربة مسبقاً يمكنها إنتاج تمثيلات شاذة، بينما محولات الانتشار نفسها تطور رموزاً شاذة داخلية خاصة في الطبقات المتوسطة. المشكلة أعمق من مجرد قيم متطرفة – حتى عندما يتم حجب الرموز عالية المعيار، لا يتحسن الأداء، مما يشير إلى فساد في دلالات الرقع المحلية (local patch semantics).

حل Dual-Stage Registers يعمل عبر استراتيجية متدرجة تتكيف مع كل مكون:

سجلات مدربة للمشفرات: استخدام سجلات تم تدريبها مسبقاً عندما تكون متاحة في مشفرات ViT لمعالجة الرموز الشاذة من المصدر
سجلات تكرارية في وقت الاختبار: تطبيق سجلات ديناميكية عندما لا تكون السجلات المدربة متوفرة، مما يوفر مرونة في النماذج المختلفة
سجلات انتشار متخصصة: آلية منفصلة تعمل داخل وحدة إزالة الضوضاء (denoiser) لمعالجة الرموز الشاذة الداخلية
كشف تلقائي للعتبات: النظام يحدد تلقائياً مستوى الرموز الشاذة ويطبق التدخل المناسب حسب شدة المشكلة
معالجة طبقية متدرجة: تطبيق مستويات مختلفة من التصحيح عبر طبقات النموذج حسب موقع الرموز الشاذة
حفظ كفاءة الاستنتاج: التقنية محسنة للحفاظ على سرعة النموذج دون التضحية بجودة التحسين

نتائج الاختبارات عبر ImageNet وتجارب توليد الصور من النص على نطاق واسع أثبتت فعالية التقنية في تقليل عيوب الرموز الشاذة وتحسين جودة التوليد بشكل ثابت (وفقاً لنتائج البحث). هذا التحسن لم يكن محدوداً بنوع محدد من المحتوى بل شمل سيناريوهات متنوعة من التوليد.

رغم نجاح النهج، التطبيق العملي يواجه تحديات في ضبط العتبات المثلى عبر بنى نماذج مختلفة. كما أن فهم التفاعل بين السجلات المختلفة في سيناريوهات التوليد المعقدة يحتاج مزيداً من البحث. الأمر الأهم أن البحث يؤكد أن التحكم في الرموز الشاذة عنصر حاسم لبناء محولات انتشار أقوى – وليس مجرد تحسين هامشي.

ArXiv