أخطاء الإسناد البياني في نماذج LLM: قياس وحل

🎧 استمع للملخص

بقلم: نور | محررة الأبحاث والدراسات · صوت تحريري بإشراف بشري

حتى حين يفهم نموذج اللغة الكبير بنية الجدول تمامًا، فإنه كثيرًا ما يستشهد بأرقام خاطئة أو يُسقط قيمًا كاملة وسط خطوات الاستدلال — وهو خطأ لا يظهر في درجة الدقة النهائية، لكنه يهدم موثوقية المخرجات من الداخل. هذا ما تكشفه ورقة بحثية جديدة نشرها يوكينغ يانغ وسبعة باحثين آخرين على arXiv في 30 يونيو 2026، وهي تُقدّم أول تقييم منهجي وواسع النطاق لظاهرة أسمتها “أخطاء الإسناد البياني” (Data Referencing Errors — DREs).

المشكلة ليست جهلًا بالجدول، بل إهمالًا في قراءته. الباحثون يميّزون بوضوح بين نموذج يعجز عن استيعاب هيكل الجدول، ونموذج يفهمه لكنه يستشهد بخلية خاطئة أو يتجاهل صفًا بأكمله. هذا النوع الثاني من الخطأ هو ما يقيسه البحث، وهو الأخطر لأنه يمرّ دون رصد في معظم أطر التقييم القائمة على الإجابة النهائية فقط.

الاختبارات شملت نماذج تتراوح بين 1.7 مليار و20 مليار معامل (وفقاً للورقة البحثية)، والنتيجة الصادمة أن أخطاء DRE ظهرت في جميع النماذج المُختبرة دون استثناء — بصرف النظر عن حجمها. هذا يعني أن زيادة المعاملات وحدها لا تكفي للقضاء على هذا النوع من الأخطاء.

أبرز ما توصّل إليه الباحثون يمكن تلخيصه في أربع نتائج محورية:

أخطاء DRE موجودة في جميع النماذج المُختبرة (من 1.7B إلى 20B)، مما يشير إلى أنها خاصية بنيوية في طريقة تعامل النماذج مع البيانات الجدولية، لا مجرد نقص في السعة الحسابية.
استخدام ناقد متخصص لمراجعة الإسناد البياني وتصفيته عبر آلية “Critic-based Filtering and Rejection Sampling” حقّق تحسينًا في دقة الإجابات يصل إلى 12.0% (وفقاً للورقة البحثية)، مما يُثبت أن المشكلة قابلة للمعالجة دون إعادة تدريب النموذج الأصلي.
درّب الباحثون نموذجًا ناقدًا خفيف الوزن بحجم 4 مليارات معامل فقط، حقّق متوسط F1 بلغ 78.2% في رصد أخطاء DRE داخل التوزيع وخارجه (وفقاً للورقة البحثية)، ما يعني قدرته على التعميم على مهام جديدة لم يُدرَّب عليها.
النموذج الناقد الصغير (4B) أثبت فاعليته في مساعدة نماذج أكبر منه أثناء الاستدلال، وهو ما يفتح الباب أمام بنية معمارية جديدة يُشرف فيها نموذج صغير على إخراج نماذج أضخم في مهام الجداول.

الجانب المنهجي يستحق وقفة. إسناد الخطأ إلى “إهمال القراءة” لا إلى “عدم الفهم” يغيّر طريقة علاجه كليًا. الحل الكلاسيكي — المزيد من التدريب على بيانات جدولية — قد لا يكون الأمثل هنا. ما يقترحه البحث أقرب إلى طبقة مراجعة مستقلة تعمل بعد التوليد، تتحقق من أن كل رقم استشهد به النموذج موجود فعلًا في الجدول المصدر، وفي الصف والعمود الصحيحين.

للمطورين الذين يبنون أنظمة تعتمد على تحليل الجداول — سواء كانت تقارير مالية، أو بيانات طبية، أو لوحات مؤشرات أداء — هذا البحث يطرح سؤالًا عمليًا مباشرًا: هل تقيس دقة نظامك على مستوى الاستدلال الوسيط، أم على مستوى الإجابة النهائية فقط؟ الفجوة بين المقياسَين هي بالضبط المساحة التي تعيش فيها أخطاء DRE دون أن تُكتشف. نموذج ناقد بحجم 4B يحقق F1 بنسبة 78.2% قد يكون الحارس الأكثر فاعلية من إعادة ضبط دقيق لنموذج أكبر بعشرة أضعاف.

الورقة تضع يدها على نقطة عمياء حقيقية في منظومة تقييم LLMs الحالية، وتقدم حلًا قابلًا للتطبيق الفوري بتكلفة حسابية منخفضة — وهذا النوع من البحث هو ما يحتاجه المطورون أكثر من أي تحسينات benchmark جديدة.

arXiv