SFHformer نموذج موحد لمعالجة تدهور الصور بالذكاء الاصطناعي

بقلم: يوسف | محرر أدوات الذكاء الاصطناعي · صوت تحريري بإشراف بشري

نجح فريق بحثي في جامعة بيهانغ الصينية في تطوير نموذج واحد يحل عشرة مشاكل مختلفة لتدهور الصور، من إزالة الضباب إلى تحسين الإضاءة المنخفضة ومعالجة الصور تحت الماء. النموذج المسمى SFHformer يكسر القاعدة التقليدية التي تتطلب تطوير نموذج منفصل لكل مشكلة بصرية.

المشكلة الأساسية أن تطوير نماذج منفصلة لكل نوع من أنواع تدهور الصور يتطلب موارد هائلة. فريق يعمل على إزالة الضباب، وآخر على معالجة المطر، وثالث على تحسين الدقة – كل فريق يعيد اختراع العجلة. (وفقاً لبحث جامعة بيهانغ)

بدلاً من التركيز على الاختلافات البصرية بين أنواع التدهور، حلل الباحثون كيف تؤثر هذه المشاكل على التوزيع الترددي للصورة. اكتشفوا أنماطاً مشتركة غير واضحة في المجال المكاني، مما مهد الطريق لحل موحد يجمع Fast Fourier Transform مع هندسة Transformer.

تصميم مزدوج المجال: النموذج يعمل في المجال المكاني والترددي معاً، المكاني للتفاصيل المحلية والترددي للفهم الشامل لهيكل الصورة
ترميز موضعي ديناميكي: كل مكون ترددي يحصل على ترميز موضعي مخصص، مما يساعد النموذج على تحديد أولوية المعالجة حسب نوع التدهور
تطبيق ترددي ديناميكي: آلية تكيف استراتيجية المعالجة حسب المحتوى الترددي المكتشف في الصورة، بدلاً من تطبيق معالجة موحدة
اختبار شامل على 31 مجموعة بيانات: تغطي المهام العشرة الرئيسية من إزالة الضباب والمطر والثلج إلى تحسين الدقة وإلغاء الضبابية الحركية والبؤرية
تفوق على النماذج المتخصصة: حقق أداءً أفضل من النماذج المصممة خصيصاً لمهام فردية في معظم الاختبارات
كفاءة حاسوبية: توازن مثالي بين الأداء وحجم المعاملات والتكلفة الحاسوبية مقارنة بتشغيل عدة نماذج متخصصة
قابلية التوسع: إضافة مهام جديدة دون إعادة تصميم الهندسة الأساسية

الجانب التقني الأكثر إثارة هو “التطبيق الديناميكي الترددي” – النموذج لا يطبق نفس المعالجة على جميع الصور. بدلاً من ذلك، يحلل المحتوى الترددي ويكيف استراتيجية المعالجة. صورة ضبابية تحتاج معالجة ترددات منخفضة، بينما الضوضاء تتطلب التركيز على ترددات عالية.

اختبر الفريق النموذج على مهام متنوعة تشمل إزالة الضباب في مجموعات بيانات ITS وOTS وO-HAZE وNH-HAZE وDENSE-HAZE وSOTS، إزالة المطر باستخدام Rain200L وRain200H وDDN-Data وDID-Data وSPA-Data، تحسين الإضاءة المنخفضة على LOLv1 وLOLv2 وFiveK، إلغاء الضبابية الحركية على GoPro وHIDE وRealBlur، إلغاء الضبابية البؤرية على DPDD، إزالة الثلج من CSD وSRRS وSnow100K، تحسين الصور تحت الماء لـ UIEB وLSUI، إزالة الضوضاء من SIDD، وتحسين الدقة باستخدام DIV2K وSet5 وSet14 وB100 وUrban100 وManga109.

النتائج تظهر تفوقاً ملحوظاً خاصة في مهام إزالة الضباب والمطر، مع أداء منافس أو متفوق في باقي المهام. الأهم أن النموذج الموحد يقدم هذا الأداء بتكلفة حاسوبية أقل من تشغيل عدة نماذج متخصصة.

الباحثون أطلقوا كوداً مفتوح المصدر مع أوزان مدربة مسبقاً للمهام الرئيسية. كما طوروا نسخة موسعة تُدعى SWFormer تركز على التعلم متعدد المجالات. البحث نُشر في مؤتمر ECCV 2024، ويتضمن مواد تكميلية شاملة وعروضاً بصرية للنتائج.

التحدي الأساسي أن النموذج لا يزال يحتاج بيانات تدريبية لكل مهمة جديدة، رغم الهندسة الموحدة. بعض المهام عالية التخصص قد تحتاج ضبطاً دقيقاً للمعاملات الترددية. لكن التطور يمثل تحولاً نحو نماذج أكثر عملية وكفاءة لمعالجة الصور في التطبيقات الحقيقية.

GitHub Repository