تُحدَّث يومياً

مصدرُك العربي
لمستقبل الذكاء الاصطناعي

أخبار، تقارير، أدوات وتحليلات يومية — كل ما تحتاجه لمتابعة ثورة الذكاء الاصطناعي باللغة العربية

✅ تم الاشتراك!
تعلم و استخدام الذكاء الاصطناعي

دراسة تكشف تفوق الخشونة على الأدب في دقة ChatGPT 4o

🎧 استمع للملخص

بقلم: سارة | محررة نماذج الذكاء الاصطناعي · صوت تحريري بإشراف بشري

أظهرت دراسة بحثية جديدة من جامعتين أمريكيتين أن النماذج اللغوية الكبيرة مثل ChatGPT 4o تقدم إجابات أكثر دقة عندما نطرح عليها أسئلة بطريقة خشنة مقارنة بالأسلوب المهذب، في تناقض مباشر مع التوقعات البديهية والدراسات السابقة.

أجرى الباحثان أوم دوباريا وآخيل كومار تجربة شاملة لاختبار تأثير مستوى الأدب في الأسئلة على دقة إجابات النماذج اللغوية. صمم الفريق مجموعة بيانات تضمنت 50 سؤالاً أساسياً في الرياضيات والعلوم والتاريخ، ثم أعاد صياغة كل سؤال بخمسة أساليب مختلفة: مهذب جداً، مهذب، محايد، خشن، وخشن جداً، ما أنتج (وفقاً للدراسة) 250 سؤالاً فريداً للاختبار.

النتائج جاءت مفاجئة ومتسقة عبر جميع المجالات المختبرة. حققت الأسئلة الخشنة جداً أعلى معدل دقة بنسبة 84.8%، بينما سجلت الأسئلة المهذبة جداً أقل معدل دقة عند 80.8%. وعند تطبيق اختبارات إحصائية متقدمة، تأكد الباحثان من دلالة هذه النتائج إحصائياً، مما يشير إلى أن الفارق ليس صدفة (وفقاً لتحليل البيانات).

تتحدى هذه النتائج فهمنا الحالي لكيفية تفاعل النماذج اللغوية مع التفاصيل الاجتماعية في اللغة. الدراسات السابقة ربطت الخشونة بنتائج أسوأ في التفاعل بين الإنسان والآلة، لكن هذا البحث يشير إلى أن النماذج اللغوية الحديثة قد تستجيب بشكل مختلف تماماً لهذه المتغيرات الاجتماعية.

يطرح البحث تساؤلات مهمة حول الطبيعة الاجتماعية للتفاعل مع الذكاء الاصطناعي. هل يجب أن نعيد النظر في افتراضاتنا حول ضرورة الحفاظ على الأدب مع الآلات؟ أم أن هذه النتائج تعكس قصوراً في تدريب النماذج على فهم السياق الاجتماعي بطريقة صحيحة؟

الدراسة تفتح المجال لأبحاث أعمق حول الجوانب البراغماتية في هندسة الأسئلة، وهو مجال لم يحظ بالاهتمام الكافي رغم أهميته المتزايدة. مع انتشار استخدام النماذج اللغوية في التطبيقات الحقيقية، فإن فهم كيفية تأثير الأسلوب اللغوي على الأداء يصبح أولوية بحثية وعملية.

رغم أن النتائج قد تبدو مشجعة لاستخدام أسلوب أكثر مباشرة مع النماذج اللغوية، إلا أن الباحثين يحذرون من تعميم هذه النتائج دون مزيد من البحث. الدراسة اقتصرت على ChatGPT 4o وأسئلة اختيار من متعدد، وقد تختلف النتائج مع نماذج أخرى أو أنواع مختلفة من المهام.

ArXiv

مقالات ذات صلة

زر الذهاب إلى الأعلى