نموذج انتشار بدون تدريب يولّد صوراً في ثانية واحدة

🎧 استمع للملخص

بقلم: نور | محررة الأبحاث والدراسات · صوت تحريري بإشراف بشري

ماذا لو تمكنت من توليد صور عالية الجودة بجودة نموذج الانتشار نفسه، لكن بدلاً من انتظار ساعات التدريب، تحصل على النتيجة في ثانية واحدة؟

هذا بالضبط ما حققه فريق من جامعة تورنتو في ورقة بحثية جديدة نُشرت على منصة arXiv. الباحثون Haojun Qiu وKiriakos N. Kutulakos وDavid B. Lindell طوّروا نهجاً مختلفاً تماماً لمشكلة توليد الصور التي تطابق البنية الداخلية لصورة مرجعية واحدة.

المشكلة التقليدية واضحة: عندما تريد نموذج انتشار يولّد صوراً بنمط صورة معيّنة، عليك تدريب النموذج على تلك الصورة لساعات طويلة. هذا مكلف حاسوبياً ويستهلك وقتاً ثميناً، خاصة عندما تحتاج نتائج سريعة لتطبيقات الإنتاج.

الحل الذي اقترحه الفريق يتجاهل الشبكات العصبية تماماً. بدلاً من ذلك، يقسّمون الصورة المرجعية إلى رقع بأحجام مختلفة ويتعاملون معها كمجموعة بيانات محدودة. وبما أن أبعاد هذه الرقع صغيرة، يمكن حساب دالة النقاط (score function) بشكل مباشر باستخدام معادلة مغلقة الشكل، دون الحاجة لتدريب شبكة عصبية.

النتائج مذهلة: (وفقاً للدراسة المنشورة) حقق النموذج توليد صور بدقة ميجابكسل في ثانية واحدة، وصور جيجابكسل في دقائق معدودة، مع جودة وتنوع يتفوق على نماذج الانتشار المدربة على صورة واحدة.

النموذج لا يقتصر على توليد النسخ فقط. يدعم التطبيقات التالية: التوليد غير المشروط للصور، الأسلبة الموجهة بالنص، تحويل تماثل الصور، وإعادة استهداف الأبعاد. والأهم أنه متوافق مع انتشار الفضاء الكامن (latent space diffusion)، مما يعني إمكانية دمجه مع النماذج الحديثة مثل Stable Diffusion.

الجانب المثير للاهتمام أن الباحثين ربطوا نهجهم بتقنيات استعادة الصور التقليدية المعتمدة على الرقع، والتي كانت مستخدمة قبل عصر التعلّم العميق بسنوات. هذا الاتصال يفسّر لماذا يعمل النموذج بكفاءة عالية دون الحاجة للتدريب المعقد.

لكن هناك قيود واضحة. النموذج مقيّد ببنية الصورة المرجعية، مما يعني أن التنوع في النتائج محدود بخصائص تلك الصورة. إذا كانت صورتك المرجعية تحتوي على نمط هندسي بسيط، فلن تحصل على تنوع كبير. كما أن النهج قد يواجه صعوبات مع الصور ذات التفاصيل المعقدة جداً أو الأنماط العشوائية تماماً.

السؤال الأكبر هو ما إذا كان هذا النهج يمثل اتجاهاً جديداً نحو نماذج أكثر كفاءة، أم أنه محدود لحالات استخدام معيّنة. النتائج الأولية تبدو واعدة، خاصة للتطبيقات التي تحتاج سرعة عالية أكثر من التنوع الهائل.

arXiv