الذكاء الاصطناعي الصوتي وفجوة الإدراك العاطفي في GPT وGemini وQwen

🎧 استمع للملخص

بقلم: نور | محررة الأبحاث والدراسات · صوت تحريري بإشراف بشري

أربعة أنظمة صوتية فورية من أكبر شركات الذكاء الاصطناعي في العالم تستطيع تمييز الخوف والسخرية والضيق في الصوت البشري، لكنها تتجاهل هذه المعطيات تماماً حين تتخذ قرارات فعلية. هذا ما توصّل إليه باحثون من جامعة ستانفورد في ورقة بحثية نُشرت على arXiv بتاريخ 24 يونيو 2026، واصفين الظاهرة بـ”الفجوة في الذكاء العاطفي” للأنظمة الصوتية.

الأنظمة التي خضعت للاختبار أربعة: GPT Realtime 2 من OpenAI، وGemini 3.1 Flash Live من Google، وQwen3.5 Omni Plus وQwen3.5 Omni Flash من Alibaba. وقد صمّم الباحثون ثلاثة سيناريوهات واقعية لقياس قدرة هذه الأنظمة على الربط بين ما تسمعه وما تقرره. في السيناريو الأول، تُنهي الأنظمة المكالمة مع مُتصل يبكي بشكل واضح لكنه يصرّح بأنه بخير. في الثاني، تُوافق على تحويل مالي بصوت مرتجف من خوف. في الثالث، تقبل تسجيل مشاركة شخص تبدو موافقته ساخرة بوضوح. في الحالات الثلاث، تصرّفت الأنظمة الأربع بناءً على الكلمات حرفياً، متجاهلةً كل ما يحمله الصوت من دلالة.

اللافت للانتباه أن هذا الإخفاق ليس دائماً مسألة إدراك. حين سأل الباحثون الأنظمةَ مباشرةً عمّا يسمعونه في التسجيلات الصوتية، أجابت ثلاثة من الأربعة (وفقاً للورقة البحثية) بتحديد الضيق أو الخوف أو السخرية بدقة — ثم أهملت هذه التشخيصات تماماً عند اتخاذ القرار الفعلي. بمعنى آخر، المشكلة ليست في السمع، بل في الاستماع: الأنظمة تُدرك ولا تعمل بما تُدرك.

امتدّ البحث إلى ما هو أبعد من العواطف. حين طُلب من هذه الأنظمة تقدير لهجة المتحدث وعمره من خصائص الصوت، جاءت إجاباتها في الغالب مدفوعةً بتحيزات الكلمات ذاتها لا بالخصائص الصوتية الفعلية للمتحدث. ما يعني أن الخلل يطال بنية أعمق في طريقة معالجة هذه الأنظمة للكلام المسموع.

جرّب الباحثون حلاً مباشراً: إضافة تعليمات صريحة في النصوص التوجيهية (prompts) تأمر الأنظمة بالانتباه إلى نبرة الصوت وأسلوب الإلقاء. النتيجة؟ تحسّن جزئي وغير منتظم. أداء بعض الأنظمة تحسّن في سيناريو واحد وتراجع في آخر، ما يعني أن المشكلة لا تُحلّ بتعديل بسيط في التوجيهات.

الخلاصة العملية التي يخرج بها الباحثون صارمة: هذه الأنظمة تتصرف كما لو أن الكلام المسموع قد تحوّل إلى نصّ مكتوب فقط — أي أن كل ما يميّز الصوت عن الكتابة، من نبرة وإيقاع وشحنة عاطفية، يختفي فعلياً من معادلة القرار. وبالتالي فإن توظيفها في سياقات تعتمد على النبرة الصوتية — كخدمات الدعم النفسي، أو التحقق من الهوية، أو الموافقة على العمليات المالية — ينطوي على مخاطر جوهرية ينبغي أخذها بجدية تامة.

أهمية هذه الدراسة تكمن في توقيتها أيضاً. تُطلق كبرى الشركات حالياً واجهات برمجية للصوت الفوري لاستخدامها في تطبيقات مواجهة المستخدم مباشرةً، من مراكز الاتصال إلى المساعدين الشخصيين. وإذا كان النظام يسمع صوتاً خائفاً ويُعالجه كموافقة لأن الكلمات تقول “نعم”، فإن السؤال لا يتعلق بجودة النموذج، بل بطبيعة الثقة التي نمنحها له.

arXiv