
بقلم: نور | محررة الأبحاث والدراسات · صوت تحريري بإشراف بشري
لماذا تتعثر نماذج الذكاء الاصطناعي عندما تواجه طرق تفكير متنوعة لحل نفس المشكلة؟ سؤال طرحه فريق بحثي من جامعات مختلفة وأجابوا عليه في دراسة جديدة تكشف التحدي الخفي وراء تدريب النماذج على بيانات Chain-of-Thought متعددة المصادر.
الورقة البحثية بعنوان “Learning to Think from Multiple Thinkers” التي نُشرت على arXiv تحت الرقم 2604.24737 تتناول مشكلة حقيقية: بينما يمكن تدريب النماذج بسهولة على سلاسل تفكير من مصدر واحد، تصبح العملية معقدة حاسوبياً عند إدراج مفكرين اثنين أو أكثر يقدمون حلولاً صحيحة لكن مختلفة الأسلوب (وفقاً لـ Joshi وآخرين، arXiv).
تخيل نموذج ذكاء اصطناعي يتعلم الرياضيات من معلم واحد يستخدم الجبر دائماً — هذا سهل. لكن ماذا لو أردت تعريضه لمعلمين مختلفين: أحدهم يفضل الجبر والآخر الهندسة والثالث التفاضل؟ الآن تواجه مشكلة “تضارب الأساليب” حيث كل طريقة صحيحة لكنها مختلفة جذرياً.
الباحثون Nirmit Joshi و Roey Magen و Nathan Srebro و Nikolaos Tsilivis و Gal Vardi أثبتوا نظرياً أن هذا التحدي ليس مجرد صعوبة تقنية، بل مشكلة حاسوبية جوهرية. تحت الافتراضات التشفيرية الحديثة، يصبح التعلم صعباً حاسوبياً عندما تتوفر سلاسل Chain-of-Thought من مفكرين متعددين في بيئة جمع البيانات السلبية.
لكن الإسهام الأهم في البحث ليس إثبات صعوبة المشكلة، بل تقديم حل عملي من خلال خوارزمية تعلم نشط مبتكرة تحقق كفاءة حاسوبية عامة:
- كمية صغيرة من بيانات Chain-of-Thought لكل مفكر — والمفاجأة أن هذه الكمية مستقلة تماماً عن دقة الهدف المطلوبة (ε)
- عدد معتدل من المفكرين يتناسب مع log(1/ε)log log(1/ε) فقط
- بيانات سلبية كافية للنتائج النهائية تتناسب مع (1/ε)·poly log(1/ε)
- قدرة على طرح استفسارات نشطة للحصول على خطوات التفكير عند الحاجة
- آلية تحليل أنماط متقدمة لفهم الاختلافات بين أساليب المفكرين
- نظام تقييم ديناميكي يحدد متى يطلب تفسيرات إضافية ومتى يكتفي بالنتائج النهائية
النتيجة النظرية الأكثر إثارة هي استقلالية كمية البيانات عن دقة الهدف. هذا يعني أن النموذج لا يحتاج بيانات إضافية لتحقيق دقة 99% مقارنة بدقة 90% — تطور نظري مهم في computational learning theory يختلف عن النماذج التقليدية التي تتطلب بيانات أكثر للدقة العالية.
التطبيقات العملية واعدة بشكل خاص في البرمجة والرياضيات. في البرمجة، يمكن للنموذج التعلم من traces تنفيذ مختلفة لبرامج تحل نفس المشكلة — algorithm sorting واحد قد يستخدم quicksort بينما آخر يفضل mergesort. في الرياضيات، يستطيع معالجة حلول متنوعة للمعادلات التفاضلية أو مسائل التحليل دون الحاجة لتوحيد الأسلوب.
لكن الحل ليس مثالياً. الخوارزمية تتطلب القدرة على طرح استفسارات نشطة — وهو أمر قد يكون صعباً أو مكلفاً في البيئات الإنتاجية الحقيقية. كما أن الافتراضات التشفيرية المستخدمة في إثبات صعوبة التعلم السلبي قد لا تنطبق على جميع المشاكل العملية، خاصة تلك التي لا تتطلب أماناً تشفيرياً.
هذا البحث يفتح الباب أمام جيل جديد من نماذج الذكاء الاصطناعي التي تستفيد من التنوع المعرفي بدلاً من اعتباره عقبة. المسألة الآن هي تطوير أنظمة تعلم نشط قابلة للتطبيق على نطاق واسع — وهو تحد تقني وهندسي يتطلب أكثر من الحلول النظرية.







