
ملخص مختصر
قدّم بحث جديد من أوبن إيه آي تفسيرًا لسبب استمرار النماذج اللغوية في إنتاج عبارات «مقنعة لكنها خاطئة». الخلاصة: أساليب التدريب والاختبار الحالية تُعاقِب الاعتراف بعدم اليقين وتُكافئ الإجابة بثقة، حتى عندما لا يعرف النموذج الإجابة. يقترح الباحثون تغيير معايير التقييم لمنح رصيد لعبارة «لا أعلم» ومعاقبة الأخطاء الواثقة.
التفاصيل
- على معيار PersonQA الخاص بأسئلة الحقائق عن الشخصيات العامة، سجّل نموذج o3 معدل هلوسة يبلغ 33%—قرابة ضعف o1—بينما بلغ o4-mini 48%، رغم تحسّن الأداء في الرياضيات والبرمجة.
- المفارقة: النماذج «الأذكى» قد تُخطئ بثقة أكبر؛ لأن أنظمة التدريب والاختبار تُفضّل الإجابات الكاملة على الإقرار بالشك أو الامتناع.
- التفسير الأساسي: حوافز التعلم المُراقب وعمليات الضبط تقيس غالبًا «الصواب النهائي» فقط، من دون تقدير قابلية التفسير أو معايرة الثقة، ما يدفع النموذج للإجابة حتى مع نقص الأدلة.
- المقترحات: تحديث المعايير لتشمل عقوبات على «الأخطاء الواثقة»، ومنح نقاط لرسائل مثل «لا أعلم»، وتطبيق عتبات ثقة (Confidence Thresholds) تُمكّن النموذج من الامتناع بشكل شرعي.
- سياقات عالية الحساسية (القانون والطب والمالية) تتطلب اختبارات تُقيّم الذكاء الاصطناعي التوليدي على قدرته في إدارة عدم اليقين، لا على عدد الإجابات فقط.
النتائج
- تبيّن أن معدلات الهلوسة قد ترتفع مع تقدّم القدرات؛ فـo3 وo4-mini قدّما رياضيات أفضل لكن هلوسة أعلى على PersonQA.
- التوصية هي «التعلّم على الفشل الصادق»: أي مكافأة الامتناع عند الشك وتقليل مكافأة التخمين الواثق، ما يُحسّن معايرة الثقة ويخفض الأخطاء الحرجة.
- لا يتوقع البحث اختفاء الهلوسة تمامًا، لكن يتوقع انخفاض «الأخطاء الواثقة» وتحسن الموثوقية في الاستخدامات الحسّاسة.
لماذا يهم الأمر؟
تغيير معايير تقييم النماذج اللغوية من «إجابات صحيحة فقط» إلى «دقّة + معايرة الثقة» قد يقلّل المخاطر التشغيلية ويجعل الأنظمة أكثر ملاءمة للتطبيقات الطبية والقانونية والتعليمية. بالنسبة للمنطقة العربية، يُرشد هذا التغيير الهيئات والشركات إلى تبنّي سياسات شراء واختبار تُثمّن الاعتراف بعدم اليقين، ما يعزز سلامة حلول الذكاء الاصطناعي وموثوقيتها.
الخلاصة في 3 أسطر:
بحث جديد يوضح أن حوافز التدريب/الاختبار تدفع النماذج إلى الإجابة بثقة حتى عند عدم المعرفة، ما يرفع الهلوسة.
الحل المقترح: معايير تُعاقب الأخطاء الواثقة وتُكافئ «لا أعلم»، مع عتبات للثقة لتحسين المعايرة.
الأهمية عربيًا: اعتماد هذه السياسات في الجهات الصحية والقانونية والمالية يقلّل المخاطر ويرفع موثوقية الأنظمة الذكية.




