احتمالية التسلسل في LLMs: متى تعني الصواب؟

🎧 استمع للملخص

بقلم: نور | محررة الأبحاث والدراسات · صوت تحريري بإشراف بشري

هل النموذج اللغوي الذي يُنتج إجابةً بأعلى احتمالية هو الأكثر دقةً بالضرورة؟ سؤال يبدو بديهياً، لكن بحثاً نُشر على arXiv في 25 يونيو 2026 من تأليف Johannes Zenn وJonas Geiping يُثبت أن الإجابة أعقد بكثير مما يفترضه معظم ممارسي الـ LLMs.

الفكرة الجوهرية التي يقوم عليها البحث هي أن غالبية أساليب الـ decoding — من greedy search إلى beam search إلى temperature sampling — تعمل بمنطق واحد مشترك: تحريك كتلة الاحتمالية نحو مخرجات أكثر ترجيحاً، سواء على مستوى التوكن الفردي أو على مستوى التسلسل الكامل. وهذا يجعل سؤالاً واحداً محورياً: هل الـ sequence probability — أي الاحتمالية الشرطية للإجابة بأكملها بالنظر إلى الـ prompt — تتوافق فعلاً مع الصحة؟

الباحثان لم يكتفيا بطرح السؤال، بل قيسا هذه العلاقة على أربعة مستويات تحليلية متمايزة:

عبر أساليب الـ decoding المختلفة مقارنةً ببعضها
عبر الـ hyperparameters داخل الأسلوب الواحد (مثل قيم مختلفة لـ temperature أو beam width)
عبر أزواج prompt-answer المختلفة داخل dataset واحد
عبر ردود متكررة على نفس الـ prompt

النتائج تُقدّم صورةً متناقضة ومثيرة. على مستوى أزواج prompt-answer داخل dataset محدد، الاحتمالية الأعلى تُشير فعلاً إلى إجابة أصح — وهذه علاقة يمكن توظيفها عملياً في تصميم الـ verifiers وأنظمة الـ ranking. لكن هذه العلاقة تنهار تماماً حين تنتقل إلى مستوى قرارات الـ decoding: رفع الاحتمالية عبر تعديل الـ hyperparameters أو تغيير أسلوب الـ decoding لا يُحسّن الدقة بشكل موثوق. وهذا يعني أن ما يبدو تحسيناً على الورق — beam width أوسع، temperature أدنى — لا يضمن إجابةً أصح.

الأكثر إثارةً من الناحية التقنية هو الاكتشاف المتعلق بالردود المتكررة على نفس الـ prompt: الاحتمالية ليست مؤشراً جيداً على الصحة هنا. وهذا يمس مباشرةً تقنية الـ self-consistency الشائعة، التي تفترض أن التصويت على أكثر الإجابات تكراراً أو أعلاها احتمالاً يُقرّب من الصواب. الباحثان يُشيران إلى أن هذه الافتراضية تحتاج إلى مراجعة، لأن الاحتمالية والتكرار لا يعكسان دائماً الصحة الفعلية عند تكرار الاستعلام ذاته.

للمطورين العاملين على pipeline الاستدلال، هذه النتائج تُعيد رسم خارطة ما يمكن وما لا يمكن تحسينه. استخدام الـ sequence probability كأداة تصنيف بين إجابات مختلفة على أسئلة مختلفة — هذا صالح ومفيد. أما الاعتماد عليها لاختيار الـ decoding method الأفضل أو لتحديد أي تكرار للإجابة أصح، فهذا ما يُحذر منه البحث صراحةً. وتمتد التداعيات إلى أنظمة الـ self-improvement الخالية من verifiers خارجي، حيث الرقابة الداخلية تعتمد على الاحتمالية بوصفها بديلاً عن التقييم الخارجي — وهو رهان قد لا يكون مضموناً.

الورقة البحثية تُقدّم توجيهات عملية لثلاثة سيناريوهات: تصميم الـ decoding، وتقنية الـ self-consistency، وأنظمة الـ verifier-free self-improvement. ما يجعلها نقطة مرجعية جديرة بالاهتمام هو أنها لا تُفنّد أهمية الاحتمالية كلياً، بل ترسم حدودها بدقة — وهذا النوع من التمييز الدقيق هو ما يفتقر إليه كثير من النقاشات العملية حول tuning وoptimization في اللغوي الكبير.

arXiv