Moebius image inpainting نموذج 0.2B يتفوق على FLUX.1-Fill

🎧 استمع للملخص

بقلم: نور | محررة الأبحاث والدراسات · صوت تحريري بإشراف بشري

أقل من 2% من حجم المنافس، وأداء مماثل أو أفضل على ستة معايير قياسية مختلفة — هذا ما يدّعيه Moebius، النموذج المتخصص الجديد في إصلاح الصور (image inpainting) الصادر عن جامعة هواتشونغ للعلوم والتكنولوجيا بالتعاون مع مختبر VIVO AI.

الحجم المرعب لنماذج الجيل الحالي أصبح عائقاً حقيقياً أمام النشر العملي. FLUX.1-Fill-Dev، النموذج الصناعي المرجعي، يحمل 11.9 مليار معامل، ما يجعل تشغيله على الأجهزة الاستهلاكية أو حواف الشبكة شبه مستحيل (وفقاً للورقة البحثية). Moebius يقترح مساراً مختلفاً تماماً: بدلاً من مضاعفة المعاملات، يُعيد تصميم الهيكلية من الأساس ليحقق 0.22 مليار معامل (226M) فحسب.

النتائج التي رصدتها الورقة البحثية عبر ستة معايير قياسية شاملة تتوزع بين مشاهد طبيعية (Places2) ومشاهد البورتريه (CelebA-HQ وFFHQ) تكشف عن أداء يتجاوز أحياناً النماذج العملاقة، لا يوازيها فحسب — لا سيما في مهام الأنسجة المعقدة وتوليد الوجوه البشرية بشكل مقنع.

كفاءة معاملات استثنائية (أقل من 2%): يعمل Moebius بـ 0.22 مليار معامل مقارنةً بـ 11.9 مليار في FLUX.1-Fill-Dev، أي ما يعادل أقل من 2% من حجم النموذج المنافس. هذا الحجم يتيح التشغيل على الأجهزة الاستهلاكية وأجهزة الحافة (edge devices) دون الحاجة إلى بنية تحتية حوسبية ضخمة (وفقاً للورقة البحثية).
تسارع 15× في وقت الاستدلال (26 ملي ثانية لكل خطوة): يحقق النموذج كمون استدلال يبلغ 26.01 ملي ثانية لكل خطوة على GPU واحد، مع تسارع إجمالي يتجاوز 15 ضعفاً مقارنةً بنماذج الـ 10B عند احتساب عدد خطوات أخذ العينات المُحسَّنة (وفقاً للورقة البحثية). هذا الرقم وحده كافٍ لجعل تطبيقات الوقت الفعلي ممكنة فعلياً.
جودة على مستوى الـ 10B عبر ستة معايير قياسية: يُساوي الجودة أو يتفوق على FLUX.1-Fill-Dev وSD3.5 Large-Inpainting عبر ستة معايير شاملة، تشمل Places2 للمشاهد الطبيعية وCelebA-HQ وFFHQ للبورتريه. التفوق يظهر تحديداً في مهام الأنسجة المعقدة ومعقولية الوجوه، وهي نقاط ضعف تاريخية في النماذج المضغوطة (وفقاً للورقة البحثية).
كتلة LλMI — الابتكار المعماري الأساسي: يعيد Moebius بناء العمود الفقري لنموذج الانتشار (diffusion backbone) من خلال كتلة Local-λ Mix Interaction (LλMI)، التي تتكون من وحدتين: Local-λ وInteractive-λ. هاتان الوحدتان تلخصان السياق المكاني والمسبقات الدلالية العالمية في مصفوفات خطية ذات حجم ثابت، مما يتجنب التكلفة الحسابية التربيعية (quadratic overhead) التي تُعاني منها آليات الانتباه التقليدية (وفقاً للورقة البحثية).
استراتيجية التقطير التكيّفي متعدد الدقة: لسد الهوة التمثيلية الناجمة عن الضغط المعماري الشديد، يقترن Moebius باستراتيجية تقطير تعمل حصرياً في الفضاء الكامن (latent space) بعيداً عن فك الترميز المكلف في فضاء البكسل. تُوازن الاستراتيجية ديناميكياً بين خسائر متعددة تعتمد على معايير التدرج (gradient norm adaptive loss weighting) لتوافق المشرف متعدد الدقة — من الميزات الوسيطة الدقيقة حتى مسارات الانتشار الكلية (وفقاً للورقة البحثية).
استكشاف حدود التآزر بين البنية والتقطير: تذهب الورقة إلى أبعد من مجرد تدريب النموذج، إذ ترسم “حدود التآزر” (synergy frontier) بين الضغط المعماري وقدرة التقطير. هذا الاستكشاف يكشف نقطة تشبع التمثيل (representation saturation) التي عندها يعجز الطالب (student) عن استيعاب مزيد من معرفة المعلم (teacher)، ما يُتيح ضمان أقصى استفادة ممكنة دون هدر (وفقاً للورقة البحثية).

ما يجعل هذا النهج لافتاً ليس مجرد الأرقام، بل الفلسفة التصميمية الكامنة وراءه. بينما تراهن مختبرات كبرى على أن الحجم هو الحل، يُقدّم فريق Xinggang Wang في هواتشونغ حجةً مضادة: التخصص العميق لمهمة محددة يُنتج نموذجاً أذكى وأسرع وأخف في آنٍ واحد. النموذج المعلم المُستخدم في التقطير هو PixelHacker الخاص بالفريق ذاته، وهو ما يمنح الفريق تحكماً كاملاً في سلسلة التدريب بأكملها.

القيد الأوضح الغائب عن الورقة هو غياب تفاصيل حول متطلبات VRAM تحديداً على الأجهزة الاستهلاكية المختلفة، فضلاً عن عدم وضوح حدود أداء النموذج في مهام inpainting خارج النطاق المُختبر، كالمشاهد عالية الدقة فوق الـ 4K أو الصور الطبية. الكود متاح للباحثين عبر المستودع الرسمي، وتفاصيل الورقة كاملة على arXiv تحت الرقم 2606.19195.

Huazhong University of Science and Technology / VIVO AI Lab