الاستدلال التكيّفي بالكود في النماذج متعددة الوسائط

🎧 استمع للملخص

بقلم: نور | محررة الأبحاث والدراسات · صوت تحريري بإشراف بشري

رفعت تقنية AIR (Adaptive Interleaved Reasoning) معدلات دقة الاستدلال المتشابك في النماذج متعددة الوسائط بمقدار 9.9 نقطة مئوية، وتجاوزت نسبة نجاح استخدام الأدوات حاجز 95% (وفقاً لبحث arXiv:2606.23678). هذه الأرقام ليست تحسيناً هامشياً؛ إنها تشير إلى أن MLLMs باتت قادرة على الجمع بين الإدراك البصري والحسابات العددية الدقيقة في مسار استدلال واحد.

المشكلة التي يعالجها الفريق — كونج هان وشياوهان لان وهايبو تشيو ويوجيه تشونج — ليست جديدة، لكنها ظلت معلّقة: معظم النماذج متعددة الوسائط التي تستخدم الكود كأداة مساعدة تعتمد على قواعد مسبقة لمعالجة الصور، مما يجعلها عاجزة أمام المسائل الحسابية العددية التي تتطلب منطقاً رياضياً لا مجرد تلاعب بالبيكسلات. النموذج السائد منذ OpenAI o3 هو “التشابك بين الاستدلال والكود”، لكن تطبيقاته ظلت حبيسة مهام الإدراك البصري البحت.

الحل الذي يقدمه AIR مكوّن من ثلاثة أجزاء متكاملة:

خط إنتاج بيانات التشغيل المبدئي على مرحلتين (Two-Stage Cold-Start Pipeline): يُولّد بيانات تدريب على مهام الحساب العددي المعقّد مع الكود، مما يمنح النموذج نقطة انطلاق صلبة قبل الدخول في مرحلة التعلم المعزّز.
استراتيجيات تصفية بيانات RL: تُنقّي مجموعة بيانات التعلم المعزّز عبر معايير انتقاء مدروسة، تضمن أن يتدرّب النموذج على أمثلة ذات جودة عالية دون ضوضاء تُفسد مسارات الاستدلال.
استراتيجية استدعاء أدوات تكيّفية بدالة مكافأة مقيّدة بالمجموعة (Group-Constrained Reward Function): القلب النابض للنظام. بدلاً من إجبار النموذج على استخدام الكود في كل خطوة أو تركه يختار عشوائياً، تُحدّد الدالة متى يكون الكود ضرورياً فعلاً ضمن سياق المجموعة الكاملة من مسارات الاستدلال، مما يُقلّص الاستدعاءات غير الضرورية.

النتائج التجريبية تُظهر أن التدريب بالتعلم المعزّز مع دالة المكافأة المقيّدة وحده رفع الأداء بمتوسط 6.1 نقطة مئوية عبر جميع معايير التقييم المستخدمة (وفقاً للورقة البحثية)، فيما قفز أداء عيّنات الاستدلال المتشابك تحديداً بـ9.9 نقطة مئوية — وهو الرقم الأكثر دلالة لأنه يعكس تحسّناً نوعياً في السيناريوهات التي تمزج بين رؤية الصورة والحساب العددي في آنٍ واحد.

ما يجعل هذا البحث جديراً بالمتابعة هو أنه يتجاوز ما يُعرَف بـ”tool-use for vision tasks” نحو شيء أشمل: MLLM قادرة على التفكير حول مسألة بصرية ثم استدعاء الكود لإجراء الحساب المطلوب دون أن يكون ذلك مُبرمجاً مسبقاً في منطق التطبيق. الفرق كبير عملياً — تخيّل نموذجاً يرى جدولاً مالياً في صورة ويحسب النسب والفروقات دون أن يحتاج مطوّر الـ backend إلى كتابة حالة خاصة لكل عملية.

البيانات والكود متاحان للعموم، وهو ما يفتح الباب أمام المطورين للبناء على هذه الأساليب مباشرةً دون انتظار نموذج تجاري مغلق. الورقة قُدِّمت في 22 يونيو 2026 ضمن تخصصَي Computer Vision and Pattern Recognition وArtificial Intelligence على arXiv، وتنتظر تسجيل الـDOI عبر DataCite.

arXiv