OpenThoughts-Agent: بيانات تدريب الوكلاء المفتوحة وأداء 44.8%

🎧 استمع للملخص

بقلم: نور | محررة الأبحاث والدراسات · صوت تحريري بإشراف بشري

خمسون باحثاً من مؤسسات متعددة يجيبون على سؤال ظل معلقاً في أبحاث الذكاء الاصطناعي: كيف تُجمّع بيانات التدريب لبناء وكيل لغوي يعمل بكفاءة على مجموعة متنوعة من المهام، لا على معيار قياسي واحد فحسب؟ الإجابة جاءت في ورقة OpenThoughts-Agent المنشورة على arXiv، وتحمل أرقاماً تستحق التوقف عندها.

المشكلة التي تعالجها الورقة بسيطة في صياغتها لكنها معقدة في حلها: الجهود المفتوحة الموجودة مثل SWE-Smith وSERA وNemotron-Terminal صُمّمت كل منها لتحقيق أداء ممتاز على معيار قياسي بعينه، وهو ما يجعلها هشّة أمام المهام التي لم تُدرَّب عليها. مشروع OT-Agent يرفض هذه الفلسفة كلياً ويبني خطوط أنابيب مفتوحة المصدر بالكامل لتجميع البيانات وضبط النماذج.

الرقم الذي يتصدر النتائج: نموذج Qwen3-32B المُضبوط على مجموعة بيانات OT-Agent البالغة 100,000 مثال حقق متوسط دقة 44.8% عبر سبعة معايير قياسية للوكلاء (وفقاً للورقة البحثية). هذا يعني تحسناً بمقدار 3.9 نقطة مئوية على أقوى نموذج وكيل مفتوح المصدر المتاح حالياً، وهو Nemotron-Terminal-32B الذي سجّل 40.9%. الفارق يبدو متواضعاً رقمياً، لكن السياق يكشف أهميته: هذا التفوق يتحقق عبر سبعة معايير مختلفة، لا عبر معيار واحد تم تحسين النموذج خصيصاً له.

الجانب الأكثر أهمية من حيث القيمة الأكاديمية هو المنهجية، إذ أجرى الفريق أكثر من 100 تجربة استئصال محكومة لفحص كل مرحلة في خط الأنابيب بشكل مستقل. هذا العدد من التجارب المنهجية نادر في أبحاث الذكاء الاصطناعي المفتوحة، وأسفر عن استنتاجات واضحة حول أهمية تنوع مصادر المهام في بيانات التدريب — أي أن مصدر البيانات ونوعها يؤثران تأثيراً جوهرياً على قدرة الوكيل على التعميم.

والأهم في هذه النتائج خاصية قابلية التوسع. بيانات OT-Agent لا تتفوق على البدائل المفتوحة عند نقطة الـ100 ألف مثال فحسب، بل تتفوق عليها عند كل حجم لمجموعة التدريب في المقارنات المحكومة بالحوسبة. هذا يعني أن المنهجية في تجميع البيانات — لا مجرد الحجم — هي التي تحدث الفارق.

الفريق أتاح كل شيء للعموم: مجموعات البيانات، وخط أنابيب التجميع، وبيانات التجارب، والنماذج المُضبوطة. هذا القرار يُمكّن الباحثين من التحقق من النتائج والبناء عليها بدلاً من إعادة اختراع العجلة، وهو ما يفتقر إليه معظم أبحاث تدريب الوكلاء التجارية التي تبقى أساليبها محجوبة خلف جدران ملكية فكرية.

أبرز ما خلصت إليه التجارب الـ100 يمكن تلخيصه في أربع نقاط:

تنوع مصادر المهام هو أقوى متنبئ بقدرة الوكيل على التعميم، أكثر من حجم البيانات وحده.
النماذج المُدرَّبة على معيار قياسي واحد تفشل في التعميم رغم تفوقها في ذلك المعيار المحدد — وهو ما يفسر سبب إخفاق SWE-Smith وSERA وNemotron-Terminal في الأداء الشامل.
بيانات OT-Agent تُظهر خصائص توسع قوية، إذ تتفوق على البدائل المفتوحة عند كل نقطة في منحنى الحجم، مما يشير إلى أن جودة منهجية التجميع أكثر أهمية من الكمية الخام.
خط الأنابيب المفتوح بالكامل — من التجميع إلى fine-tuning إلى التقييم — قادر على إنتاج نماذج تنافس الحلول المغلقة في فئة الـ32 مليار معامل.

السؤال الذي تتركه الورقة مفتوحاً: هل يمكن لهذا النهج أن يتوسع إلى نماذج أكبر أو إلى مهام أكثر تعقيداً مثل التعامل مع أدوات متعددة في سياق واحد؟ متوسط الدقة البالغ 44.8% يعني أن هناك هامشاً واسعاً للتحسين، والبنية الأساسية لخط الأنابيب المفتوح قائمة الآن لمن يريد البناء عليها. هذا هو بالضبط ما تفتقر إليه أبحاث الوكلاء مقارنة بأبحاث النماذج اللغوية العامة — وربما بدأ الفارق يضيق.

ArXiv