النماذج متعددة الوسائط لا تتفوق على نماذج اللغة التقليدية

🎧 استمع للملخص

بقلم: نور | محررة الأبحاث والدراسات · صوت تحريري بإشراف بشري

هل يضمن التدريب على الصور والنصوص معاً أن تفهم نماذج الذكاء الاصطناعي اللغة بطريقة أشبه بالبشر؟ دراسة جديدة من فريق بحثي بقيادة Jinzhou Wu تجيب بـ”لا” مفاجئة، حيث كشفت أن النماذج متعددة الوسائط (VLMs) لا تحقق تفوقاً شاملاً على نماذج اللغة الكبيرة التقليدية (LLMs) في محاكاة طريقة معالجة البشر للنصوص أثناء القراءة الطبيعية (وفقاً لـ arXiv).

الدراسة قارنت بين أزواج متطابقة بعناية من نماذج اللغة والنماذج متعددة الوسائط في بيئة نصية محضة، مما سمح للباحثين بعزل تأثير التاريخ التدريبي متعدد الوسائط عن المدخلات البصرية المباشرة أو الدمج عبر الوسائط. استخدم الفريق مجموعة بيانات فريدة من القراءة الطبيعية البشرية تشمل استجابات fMRI لكامل القشرة الدماغية مع تتبع حركات العين المتزامنة – وهي منهجية تقدم نظرة مباشرة على كيفية معالجة الدماغ للنصوص في الوقت الفعلي.

النتائج الأساسية تحدت الافتراض الشائع في المجال: التدريب متعدد الوسائط لا يمنح ميزة موحدة وشاملة في التوافق مع المعالجة البشرية للنصوص. هذا يعني أن التمثيلات الداخلية للغة تبقى العامل الرئيسي في نمذجة معالجة النصوص البشرية، وليس التعرض السابق للمحتوى البصري أثناء التدريب.

لكن الصورة ليست بهذه البساطة. الدراسة وجدت أن ميزة النماذج متعددة الوسائط تظهر بشكل انتقائي عندما تحتوي الجمل على محتوى دلالي بصري أقوى. هذا التفوق الانتقائي ظهر من خلال أدلة متقاربة من كل من تحليلات fMRI وتتبع حركات العين، مما يشير إلى أن الفائدة من التدريب متعدد الوسائط محددة السياق وليست عامة.

هذه النتائج تقدم إطار عمل مُحكماً لاختبار كيف يشكل تاريخ التعلم البصري التوافق بين النماذج والبشر في معالجة اللغة. الدراسة تقترح أن التدريب متعدد الوسائط يساهم بشكل انتقائي وليس شامل في تكوين تمثيلات لغوية شبيهة بالإنسان أثناء القراءة الطبيعية – وهو اكتشاف قد يعيد تشكيل استراتيجيات تطوير النماذج المستقبلية.

بالنسبة لمطوري الذكاء الاصطناعي، هذه النتائج تسلط الضوء على ضرورة إعادة تقييم متى وكيف يفيد التدريب متعدد الوسائط فعلياً. بدلاً من افتراض أن “المزيد من الوسائط = أداء أفضل”، قد تكون الاستثمارات في التدريب متعدد الوسائط أكثر فعالية عندما تُركز على المهام والسياقات التي تستفيد من المحتوى البصري بشكل مباشر.

الدراسة أيضاً تثير أسئلة مهمة حول تقييم النماذج: إذا كان الهدف هو محاكاة معالجة اللغة البشرية، فهل نقيس الأشياء الصحيحة؟ ربما نحتاج لمقاييس أكثر دقة تميز بين أنواع المهام اللغوية المختلفة بدلاً من البحث عن تحسن شامل عبر جميع السياقات.

arXiv