أقوى النماذج اللغوية تفشل في 69% من القرارات الطبية

🎧 استمع للملخص

بقلم: نور | محررة الأبحاث والدراسات · صوت تحريري بإشراف بشري

0.31 من 1.00 – هذا هو أعلى أداء حققته النماذج اللغوية الكبيرة في مقياس F1 للقرارات الطبية عند اختبارها كأطباء حقيقيين في بيئة ClinEnv الجديدة (وفقاً لدراسة ArXiv). الرقم يعني أن أقوى هذه النماذج تفشل في ثلثي قراراتها الطبية – وهو أداء يطرح تساؤلات خطيرة حول ادعاءات جاهزية الذكاء الاصطناعي للممارسة الطبية.

طور فريق بحثي من جامعة ستانفورد بيئة ClinEnv كبديل جذري عن المعايير الطبية التقليدية التي تقتصر على اختيارات متعددة. البيئة تحاكي الواقع الطبي الحقيقي: طبيب يجمع معلومات متنوعة تدريجياً من مصادر مختلفة، ويتخذ قرارات متتالية لا يمكن التراجع عنها تحت ضغط الوقت وعدم اليقين. كل حالة في ClinEnv مبنية تلقائياً من سجلات مرضى حقيقيين ومنظمة في مراحل قرارات زمنية متسلسلة.

آلية العمل تتطلب من النموذج في كل مرحلة أن يستعلم بنشاط من أربعة وكلاء متخصصين – للمختبرات والأشعة والتاريخ المرضي والفحص الجسدي – قبل اتخاذ قرارات نهائية حول الأدوية والإجراءات والتشخيصات. النظام يقيس ليس فقط صحة القرارات النهائية بل أيضاً كفاءة عملية جمع المعلومات – وهو الجانب المهمل في المعايير التقليدية.

اختبر الباحثون سبعة نماذج لغوية كبيرة والنتائج تكشف فجوات مقلقة. أقوى النماذج حقق 0.31 في مقياس F1 للقرارات، بينما ظهر انفصال حاد بين جودة النتائج وجودة العملية. نماذج تصل لنتائج صحيحة أحياناً لكن تتبع مسارات استعلام مضطربة، ونماذج أخرى تظهر منطقاً سليماً في العملية لكن تفشل في القرار النهائي.

التحليل المفصل للأخطاء يكشف أن الصعوبة الأكبر تكمن في قرارات إدارة العلاج والمراحل المتأخرة من الحالات. النماذج تستطيع استرداد تشخيصات الخروج بموثوقية أكبر من قرارات الإدارة: 0.51 مقابل 0.17 في مقياس F1 (وفقاً للدراسة). هذا التباين يشير إلى أن النماذج تتعامل بكفاءة أكبر مع التشخيص النهائي – وهو تمرين معرفي أقرب لمهامها الأصلية – لكنها تتعثر في قرارات العلاج التي تتطلب تفكيراً إجرائياً ومتابعة ديناميكية.

مشكلة أخرى مثيرة للقلق: النماذج تستمر في إصدار استعلامات زائدة مع تقدم الحالات، مما يشير إلى عجزها عن التمييز بين المعلومات الحيوية والزائدة، وفهم التوقيت المناسب للانتقال من جمع البيانات إلى اتخاذ الإجراء. في الممارسة الطبية الحقيقية، هذا السلوك قد يؤدي إلى تأخير العلاج أو إهدار الموارد.

الابتكار الأساسي في ClinEnv هو تحويل “فجوة اكتساب المعلومات” من مشكلة مخفية إلى متغير قابل للقياس المباشر. المعايير التقليدية تقيس النتائج النهائية فقط، لكن ClinEnv تكشف أن النماذج قد تصل للإجابة الصحيحة بطرق خاطئة – وهو أمر خطير في السياق الطبي حيث العملية مهمة بقدر النتيجة.

الدراسة تسلط الضوء على الفرق بين المعرفة الطبية النظرية والممارسة الفعلية. بينما تبهر النماذج اللغوية في الإجابة على أسئلة طبية في صورة امتحانات، فإن محاكاة التفكير الطبي الحقيقي – مع ضغط الوقت والمسؤولية المباشرة عن حياة المرضى – تتطلب قدرات مختلفة جذرياً.

النتائج تطرح تساؤلات جدية حول التفاؤل المفرط بشأن الذكاء الاصطناعي الطبي. إذا كانت أقوى النماذج المتاحة تفشل في 69% من قراراتها الطبية في بيئة محاكاة، فما مدى استعدادها للممارسة الفعلية؟ الأمر يتطلب إعادة تقييم جذرية لمعايير التقييم ونهج التطوير، مع التركيز على جودة العملية وليس دقة النتائج فقط.

ArXiv