تقييم النماذج اللغوية: منهجية جديدة تكشف العيوب

🎧 استمع للملخص

بقلم: نور | محررة الأبحاث والدراسات · صوت تحريري بإشراف بشري

حين نقيس قدرة نموذج لغوي على تعلم مهمة جديدة، هل نقيس التعلم الحقيقي أم مجرد ارتباطات خادعة؟ يجيب بحث جديد نُشر على arXiv بأن معظم أدوات التقييم المستخدمة حالياً تعطي نتائج مضللة بسبب اعتمادها على التحليل الارتباطي بدلاً من السببي.

قاد الدراسة فريق من ستة باحثين بقيادة فيستين سنايبيارنارسون من جامعة كوبنهاجن، وضم أنيج سفيته وجوزيف فالفودا ورضا بوماسمود وبراين دوسيل وريان كوتريل. تناولوا سؤالاً محورياً: ما مقدار البيانات المحددة المطلوبة فعلياً لتعليم النموذج مهمة معينة؟

يكمن التحدي في أن اللغة الطبيعية معقدة ومتداخلة، فالمهام صعبة التحديد ويمكن أن تؤثر على بعضها البعض. لحل هذه المعضلة، التجأ الباحثون إلى بيئة محكومة تماماً باستخدام اللغات الرسمية المولدة من probabilistic finite automata. هذه اللغات الاصطناعية تمثل منصة اختبار منهجية لدراسة العلاقة بين تكرار البيانات وقابلية التعلم دون تشويش العوامل الخارجية.

طور الفريق أداة رياضية مبتكرة تسمى “binning semiring” – وهو كائن جبري يسمح بالتحكم الدقيق في تكرار خاصية مستهدفة داخل النص المأخوذ كعينة. تخيل أنك تريد قياس تأثير تكرار كلمة معينة على تعلم النموذج، لكن دون أن تؤثر متغيرات أخرى كطول الجملة أو التعقيد النحوي. هذا تحديداً ما تحققه هذه الأداة الجديدة.

استخدم الباحثون هذه المنهجية لصياغة pipeline تجريبي كنموذج رسم بياني سببي، ثم طوروا مقاييس مبنية على تفكيك Kullback-Leibler divergence لقياس قابلية تعلم المهام الفرعية المحددة. هذا التفكيك الرياضي يكشف التأثيرات السببية الحقيقية بدلاً من مجرد الارتباطات الظاهرية.

النتائج مقلقة: أظهرت التجارب أن تقييم قابلية التعلم بدون تدخل سببي يؤدي إلى استنتاجات خاطئة بسبب المتغيرات المربكة confounders في التحليل الارتباطي. بعبارة أخرى، عندما نعتقد أن نموذجاً تعلم مهمة بسبب تكرار بيانات معينة، قد يكون السبب الحقيقي عاملاً مخفياً تماماً.

هذا الاكتشاف يقوض ثقتنا في أدوات التقييم الحالية المستخدمة عبر الصناعة. إذا كانت شركات مثل OpenAI وGoogle وAnthropic تعتمد على هذه المقاييس المعيبة لاتخاذ قرارات حول بنية النماذج وبيانات التدريب والاستثمارات، فقد تكون تلك القرارات مبنية على أسس هشة.

يحذر الباحثون صراحة من أن نتائجهم “تقدم تحذيراً حول مخاطر التحليل الارتباطي في بيئات اللغة الطبيعية”. هذا ليس مجرد قلق أكاديمي – إنه يمس جوهر كيفية تطوير وتحسين النماذج اللغوية التجارية.

المشكلة الأكبر تكمن في صعوبة نقل هذه المنهجية السببية إلى اللغات الطبيعية والمهام الحقيقية. اللغات الرسمية المستخدمة في الدراسة محكومة وقابلة للتحكم الدقيق، بينما اللغة البشرية فوضوية ومليئة بالاستثناءات والسياقات المتداخلة.

رغم هذا التحدي، يفتح البحث باباً جديداً للتفكير حول تقييم النماذج اللغوية. بدلاً من التركيز فقط على بناء نماذج أكبر وأسرع، نحتاج أولاً إلى فهم كيفية قياس التعلم بشكل صحيح. وربما تكون الخطوة الأولى هي الاعتراف بأن أدواتنا الحالية قد تكون أقل دقة مما نظن.

ArXiv