
بقلم: نور | محررة الأبحاث والدراسات · صوت تحريري بإشراف بشري
من بين 390,195 سجل استجابة و865 جلسة رصدها مطور على مدى خمسة أشهر، برز نمط غريب لا يمكن تفسيره بالصدفة: نموذج GPT-5.5 في Codex يُنهي تفكيره عند 516 رمزاً بالضبط بتكرار مقلق، مع ارتداد إضافي عند الضعف والثلاثة أضعاف — أي 1034 و1552 — في ما يبدو وكأنه حدود ثابتة لا نقاط توقف طبيعية.
المطور vguptaa45 نشر تحليلاً تفصيلياً على GitHub في 27 يونيو 2026، يرصد فيه ما وصفه بـ”شذوذ تجميع الرموز عند حدود ثابتة” في بيانات token_count الخاصة بـ Codex، مؤكداً أن الظاهرة مرتبطة تحديداً بـ GPT-5.5 وليست موزعة بالتساوي عبر النماذج الأخرى (وفقاً للتقرير على GitHub).
الأرقام تتحدث بوضوح: GPT-5.5 يمثل 19.3% فقط من إجمالي الاستجابات، لكنه يستأثر بـ82.0% من حالات التوقف عند 516 رمزاً بالضبط. ونسبة (exact-516 / >=516) لهذا النموذج تبلغ 44.0%، مقارنةً بـ1.3% فقط لسائر النماذج الأخرى مجتمعةً — أي أن الفارق يبلغ نحو 33.6 ضعفاً عن الخط الأساسي (وفقاً لبيانات Codex token_count). وحين تُقارن الأرقام بالنماذج المنافسة، يتضح الفارق الصارخ: gpt-5.2 لا يتجاوز 0.34%، وgpt-5.3-codex وgpt-5.3-codex-spark يسجلان 0.0% تماماً، في حين يصل gpt-5.4 إلى 19.8%.
الأكثر إثارةً للقلق هو التطور الزمني للظاهرة. في فبراير 2026، كانت نسبة التجميع عند 516 لا تتجاوز 0.11%، ثم قفزت إلى 2.45% في مارس، و4.25% في أبريل، لتبلغ ذروتها في مايو بـ53.30% قبل أن تتراجع قليلاً إلى 35.84% في يونيو (وفقاً للتحليل المنشور على GitHub). هذا التصاعد الحاد يُشير إلى تغيير داخلي طرأ على النموذج أو منظومة جدولته خلال أبريل أو مطلع مايو.
في الوقت ذاته، انعكست الظاهرة على كثافة التفكير الإجمالية انعكاساً سلبياً واضحاً. متوسط رموز التفكير انهار من 268.1 في فبراير إلى 106.9 في مايو — أي أقل من النصف — قبل أن يتعافى جزئياً إلى 168.5 في يونيو. ومؤشر P90، الذي يعكس السلوك في الحالات الأشد تعقيداً، تراجع من 772 رمزاً إلى 344 رمزاً في الفترة ذاتها (وفقاً لبيانات Codex token_count). بمعنى آخر: النموذج لا يُقصّر تفكيره على المهام البسيطة فحسب، بل يتوقف مبكراً حتى في المهام التي تستلزم تفكيراً عميقاً.
التحليل يستند إلى بلاغ سابق مرتبط مباشرةً بهذه الظاهرة — المشكلة #29353 — التي وثّقت حالة تكرارية بعينها: مهام من مستوى “xhigh” تنتهي عند 516 رمزاً وتُعيد إجابات خاطئة. ما يضيفه التقرير الجديد هو الأدلة التجميعية عبر نطاق زمني ممتد من فبراير إلى يونيو 2026، ما يرفع الأمر من حادثة فردية إلى نمط منهجي يستحق التحقيق الرسمي.
صاحب التقرير حريص على ضبط حدود ادعائه؛ هو لا يجزم بأن ثمة قطعاً خفياً لسلسلة التفكير الداخلية (chain-of-thought truncation)، بل يُقدّم فرضية أضيق: البيانات تتسق مع وجود “حد ميزانية تفكير” أو آلية توجيه (routing) أو جدولة (scheduling) داخلية تجعل النموذج يتوقف بصورة غير طبيعية عند هذه العتبات الثلاث. والقيم 516 و1034 و1552 — بوصفها مضاعفات منتظمة — تُرجّح أنها حدود مُبرمجة لا توقفات عشوائية.
إن صحّت هذه الفرضية، فإن مستخدمي Codex الذين يعتمدون على GPT-5.5 في مهام البرمجة المعقدة أو الاستدلال المتعدد الخطوات ربما يحصلون على إجابات أُسقطت من منتصفها دون أي إشعار مرئي. وهذا الاحتمال يطرح سؤالاً مشروعاً: هل يعلم المستخدمون أن نموذجهم قد يكون محدود الميزانية الاستدلالية بشكل صامت؟
الطلب الموجّه إلى فريق Codex من OpenAI يتضمن خطوات تحقق محددة: مقارنة أعداد التوقف عند القيم 0 و516 و1034 و1552 عبر النماذج، وحساب نسبة (exact-516 / >=516) يومياً لكل نموذج، وإعادة تشغيل مهام معقدة متطابقة على GPT-5.2 وGPT-5.5 مع تقييمات جودة منفصلة تُفرّق بين الاستجابات ذات الـ 516 رمزاً والاستجابات ذات التفكير الأطول. حتى الآن، لم تصدر أي استجابة رسمية من OpenAI على هذا البلاغ المصنف ضمن تصنيفات bug وmodel-behavior وrate-limits.







