التصفح الدلالي لتوليد الصور: تنوع منضبط بالذكاء الاصطناعي

🎧 استمع للملخص

بقلم: نور | محررة الأبحاث والدراسات · صوت تحريري بإشراف بشري

المشكلة ليست أن نماذج توليد الصور فشلت في الجودة — بل إنها نجحت فيها نجاحاً مفرطاً لدرجة أصبح كل إصدار منها يشبه الآخر. فريق بحثي يضم سارة دورفمان ومايا فيشنيفسكي وعومر دهاري وأور باتاشنيك ودانييل كوهين-أور يطرح في ورقة نُشرت على arXiv في الثاني والعشرين من يونيو 2026 مقاربة مختلفة جذرياً: بدلاً من أن يختار النموذج عشوائياً كيف يُترجم النص إلى صورة، تُنقل قرارات التنوع بالكامل إلى مستوى النص ذاته، وتمنح المستخدم القدرة على التجوّل بين خيارات تصميمية واضحة وقابلة للفهم.

النماذج الحديثة لتوليد الصور — كـ Stable Diffusion وMidjourney وما شابهها — تتفوق في الالتزام بالـ prompt وفي الدقة البصرية. لكن هذا الالتزام ذاته يُنتج ما يصفه الباحثون بـ”الانهيار إلى تفسير بصري واحد”؛ إذ تميل العينات المُولَّدة إلى التقاطع حول صورة نمطية واحدة مهما أعدت توليدها. الطرق القائمة لمعالجة هذه المشكلة تعتمد على ضخ تشويش عشوائي داخل النموذج، وهو ما يُنتج تبايناً يصفه الباحثون بأنه “مدفوع بتغيرات عرضية لا بقرارات تصميمية ذات معنى”. النتيجة: تحصل على تنوعاً في الإضاءة أو زاوية الكاميرا دون أن تتحكم في ما يهم فعلاً — ما الذي يجلس على الطاولة، ما لون الجدران، ما أسلوب المشهد.

المنهجية التي يقترحها الفريق تستغل حقيقة تقنية دقيقة: النماذج الحديثة لتوليد الصور تُدرَّب على تسميات توضيحية مُفصَّلة elaborated captions، مما يعني أنها فصلت فعلياً بين عمليتين: اتخاذ القرارات الدلالية من جهة، وتوليد البكسل من جهة أخرى. هذا الفصل يفتح الباب أمام نقلة نوعية: بدلاً من التلاعب بالعشوائية داخل النموذج، يُحرّك الباحثون التنوع على مستوى النص مباشرةً، ثم يتركون النموذج يُترجم هذه النصوص إلى صور بدقته المعتادة.

لكن نقل التنوع إلى مستوى النص وحده لا يكفي — فنماذج اللغة والرؤية VLM عند استخدامها بصورة اعتيادية تُنتج مخرجات عامة ومتوقعة. لهذا يلجأ الفريق إلى workflow وكيلي agentic يُطبّق صراحةً تبايناً منظماً مرتبطاً بالـ prompt الأصلي. الوكيل يُلزَم بتعريف محاور تباين قابلة للتفسير — أي أبعاد دلالية يستطيع المستخدم قراءتها وفهمها، لا مجرد اختلافات في معاملات النموذج. النتيجة هي ما يسمّيه الباحثون Semantic Browsing: تصفح دلالي يُمكّن المستخدم من التنقل في معرض صور منظّم، حيث يقابل كل خطوة في التنقل قراراً تصميمياً بعينه يستطيع المستخدم تسميته وفهمه.

الصورة المنتجة من هذا النظام ليست مجرد “صورة أخرى” من نفس الـ prompt — بل تعبير عن موضع محدد في فضاء تصميمي مرسوم مسبقاً. إذا كنت تطلب توليد غرفة معيشة، فبدلاً من الحصول على اثنتي عشرة صورة متشابهة تختلف في درجة الإضاءة، تحصل على غرفة بأثاث معاصر، وأخرى بأثاث كلاسيكي، وثالثة بنمط صناعي industrial — وهذه الاختلافات مُقرَّرة ومُسمَّاة لا عشوائية. الباحثون يُظهرون أن هذه المنهجية تُنتج “مساحات تصميمية قابلة للتصفح والتنقل diversity-navigable design spaces” حيث كل تباين يقابل قراراً دلالياً محدداً وقابلاً للفهم من المستخدم.

الأثر العملي لهذا النهج يتجاوز مجرد الحصول على تنوع أكثر — إنه يُعيد تأطير علاقة المستخدم بأداة التوليد. فبدلاً من أن تكون عملية الاستكشاف الإبداعي مجرد إعادة توليد متكررة أملاً في الحظ، تصبح تجربة تصفح منظمة يختار فيها المستخدم موضعه على محاور تصميمية واضحة. هذا يقترب من منطق “مستعرض التصميم design browser” أكثر من منطق “مولّد الصور image generator”. وفي سياق التطبيقات المهنية — كتصميم المنتجات أو تصميم الداخل أو إنتاج المحتوى الإبداعي — يعني ذلك إمكانية مقارنة بدائل تصميمية ذات معنى بدلاً من استهلاك حصص التوليد في محاولات عشوائية.

تبقى الورقة في مرحلة arXiv ولم تخضع بعد للمراجعة الأكاديمية الكاملة. كما أن الورقة لا تُقدّم مقارنات كمية دقيقة مع أنظمة التنوع القائمة، ولا تُحدد القيود العملية لنظام الوكيل من حيث التكلفة الحسابية أو زمن الاستجابة. السؤال المفتوح هو مدى قابلية محاور التباين للتوليد التلقائي بجودة عالية عبر مجالات موضوعية مختلفة — فما ينجح مع غرف المعيشة قد يواجه تحديات مختلفة مع المشاهد المجردة أو الوجوه البشرية.

ArXiv