نماذج اللغة الكبيرة تفشل في المسائل الطويلة

🎧 استمع للملخص

بقلم: نور | محررة الأبحاث والدراسات · صوت تحريري بإشراف بشري

يمكن لـ GPT-4 أن يحل مسألة تخطيط معقدة في 10 خطوات، لكنه ينهار عند 15 خطوة من نفس النوع. هذا الاكتشاف المفاجئ جاء من بحث جديد أجراه فريق من جامعتي ستانفورد وأمستردام، حيث اختبروا قدرة نماذج اللغة الكبيرة على التعميم باستخدام مسائل المسار الأقصر كبيئة تجريبية محكمة.

الدراسة بقيادة Yao Tong وزملاؤه لم تكتف بقياس الأداء العام، بل فصلت بدقة بين نوعين من التعميم: النقل المكاني (حل المسائل في بيئات جديدة) والتوسع الطولي (حل مسائل أطول). النتيجة صادمة: النماذج تتفوق في الأول وتفشل تماماً في الثاني.

تصميم بيئة تجريبية نظيفة: استخدام مسائل المسار الأقصر كنموذج للمشاكل التركيبية التسلسلية، مما يسمح بفصل متغيرات التدريب والاستنتاج
اختبار النقل المكاني: قياس الأداء على خرائط جديدة بنفس الحجم المدرب عليه، حيث أظهرت النماذج نجاحاً قوياً
قياس التوسع الطولي: اختبار مسائل أطول من نطاق التدريب، حيث سجلت النماذج فشلاً متسقاً بسبب عدم الاستقرار التكراري
تحليل مراحل خط التعلم: فحص تأثير تغطية البيانات (تحدد الحدود العليا)، التعلم المعزز (يحسن الاستقرار دون توسيع الحدود)، واستراتيجيات الاستنتاج المتقدمة
توثيق تراكم الأخطاء: تتبع كيف تتضاعف الأخطاء الصغيرة في المراحل المبكرة لتصبح كارثية في النهاية

الآثار العملية واضحة ومباشرة. إذا كنت تطور تطبيقاً يعتمد على Claude أو GPT لحل سلاسل معقدة من المهام، فأنت تواجه حائطاً خفياً عند نقطة معينة. النموذج سيعطيك نتائج ممتازة حتى يصل لطول السلسلة الذي لم يره في التدريب، ثم سينهار أداؤه تدريجياً مع كل خطوة إضافية.

الباحثون اكتشفوا أن تقنيات التحسين المعروفة لها حدود واضحة. تغطية البيانات تعمل كسقف صلب – لا يمكن للنموذج تجاوز أطول سلسلة رآها في التدريب مهما كانت ذكياً. التعلم المعزز يقلل التذبذب ويحسن الاستقرار، لكنه لا يرفع السقف. استراتيجيات الاستنتاج المتقدمة مثل إعطاء النموذج وقتاً أكثر للتفكير تحسن الأداء في النطاق المدرب عليه، لكنها عاجزة عن إصلاح الانهيار في المسائل الطويلة.

هذا الاكتشاف يعيد تشكيل فهمنا لقدرات النماذج الحالية. عندما تشاهد عروضاً تقنية مبهرة لـ o1 أو Claude في حل مسائل الرياضيات، تذكر أن هذا الأداء مقيد بطول المسائل في بيانات التدريب. في العالم الحقيقي، المسائل لا تأتي بأطوال ثابتة – مشروعك القادم قد يتطلب 50 خطوة متتالية من التفكير المنطقي.

التحدي الحقيقي ليس تقنياً فقط، بل اقتصادياً أيضاً. كيف تبني منتجاً موثوقاً على أساس نموذج قد ينهار عند تجاوز حد خفي؟ الحل الواقعي يتطلب تصميم أنظمة تكتشف الانهيار مبكراً وتقسم المسائل الطويلة إلى قطع قابلة للإدارة، أو تستخدم آليات التحقق المتعددة لتقليل تأثير عدم الاستقرار التكراري.

ArXiv