كيمي K2.6 يهزم GPT-5.5 وClaude في مسابقة البرمجة

🎧 استمع للملخص

بقلم: سارة | محررة نماذج الذكاء الاصطناعي · صوت تحريري بإشراف بشري

حقق نموذج كيمي K2.6 المفتوح الأوزان من الشركة الصينية الناشئة Moonshot AI انتصاراً غير متوقع في مسابقة البرمجة التفاعلية، متفوقاً على نماذج (وفقاً لـ ThinkPol) GPT-5.5 من OpenAI وClaude Opus 4.7 من Anthropic وGemini Pro 3.1 من Google. فاز كيمي بـ22 نقطة مباراة وسجل 7-1-0 في تحدي Word Gem Puzzle، وهو لعبة ألغاز تتطلب تحريك البلاط لتكوين كلمات إنجليزية صحيحة.

لم تكن هذه مجرد مفاجأة تقنية، بل إشارة واضحة لتقلص الفجوة بين النماذج مفتوحة المصدر والنماذج التجارية المتقدمة. فبينما يسجل كيمي 54 نقطة على مؤشر الذكاء الاصطناعي مقابل 60 لـGPT-5.5 و57 لـClaude، فإن هذا الفارق الضيق بدأ يظهر تأثيره في التطبيقات العملية (وفقاً لـ ThinkPol).

تفاصيل التحدي والنتائج الكاملة:

كيمي K2.6 (Moonshot AI): 22 نقطة، سجل 7-1-0 – فاز بالمركز الأول باستراتيجية التحريك العدواني
MiMo V2-Pro (Xiaomi): 20 نقطة، سجل 6-2-0 – حل ثاني رغم عدم تحريك أي بلاطة واحدة
ChatGPT GPT-5.5: 16 نقطة، سجل 5-1-2 – أداء متحفظ بـ120 تحريكة في المتوسط
GLM 5.1 (Zhipu AI): 15 نقطة، سجل 5-0-3 – النموذج الأكثر عدوانية بـ800 ألف تحريكة
Claude Opus 4.7: 12 نقطة، سجل 4-0-4 – توقف عند الشبكات الكبيرة 30×30
Gemini Pro 3.1: 9 نقاط، سجل 3-0-5 – أداء ضعيف في المستويات المتقدمة
Grok Expert 4.2: 9 نقاط، سجل 3-0-5 – لم يحرك البلاط لكن سجل نقاط معقولة
DeepSeek V4: 3 نقاط، سجل 1-0-7 – أرسل بيانات مشوهة في كل جولة
Muse Spark: 0 نقاط، سجل 0-0-8 – فشل كامل بنقاط سالبة -15,309

اللعبة نفسها معقدة: شبكة مستطيلة تبدأ من 10×10 وتصل لـ30×30 مملوءة ببلاط الحروف ومساحة فارغة واحدة. يمكن للنماذج تحريك أي بلاطة مجاورة للفراغ والمطالبة بالكلمات الصحيحة المكونة أفقياً أو عمودياً. النقاط تكافئ الكلمات الطويلة وتعاقب القصيرة: كلمة من 3 حروف تكلف 3 نقاط، من 5 حروف نقطة واحدة، بينما كلمة من 8 حروف تجلب نقطتين (وفقاً لـ ThinkPol).

الاستراتيجية الفائزة لكيمي كانت بسيطة لكن فعالة: تقييم كل تحريكة ممكنة حسب الكلمات الجديدة ذات القيمة الإيجابية التي تفتحها، ثم تنفيذ الأفضل. عندما لا توجد تحريكات مفيدة، يعود للاتجاه الأول أبجدياً. هذا التكرار العدواني سبب أحياناً “تذبذب حافة” غير فعال، لكن على الشبكات الكبيرة 30×30 حيث تحطمت معظم الكلمات الأساسية، كان حجم التحريك المستمر هو المفتاح.

نموذج شاومي MiMo اتبع نهجاً مختلفاً تماماً: لم يحرك بلاطة واحدة. بدلاً من ذلك، مسح الشبكة الأولية بحثاً عن كلمات من 7 حروف أو أكثر وأرسل جميع مطالباته في حزمة TCP واحدة. هذه الاستراتيجية الهشة اعتمدت كلياً على بقاء كلمات سليمة بعد الخلط. على الشبكات التي حافظت على كلمات، حقق MiMo نتائج سريعة. على الشبكات المتدهورة، سجل صفراً.

Claude وGPT-5.5 أظهرا قيوداً واضحة. Claude لم يحرك البلاط إطلاقاً، مما حد من قدرته في لعبة مبنية أساساً على التحريك. سجل بشكل جيد في شبكات 25×25 المتوسطة لكن انهار في 30×30. GPT-5.5 كان أكثر تحفظاً بحوالي 120 تحريكة في الجولة مع حد أقصى لتجنب العشوائية، وأظهر أرقاماً قوية في شبكات 15×15 و30×30.

الكارثة الحقيقية كانت Muse Spark الذي طالب بكل كلمة وجدها، بغض النظر عن طولها. في شبكة 30×30 تحتوي مئات الكلمات القصيرة الصحيحة، وجد Muse جميعها وطالب بكل واحدة. النتيجة: -15,309 نقطة، فجوة أكبر بينه وبين المركز الثامن من الفجوة بين الثامن والأول (وفقاً لـ ThinkPol).

هذه النتائج تطرح أسئلة مهمة حول المقايضة بين الأمان والأداء. النماذج الغربية شديدة التحسين للأمان قد تكون أكثر تحفظاً في المطالبة العدوانية بالكلمات، مما يعكس عدم تطابق بين تصميم المهمة وسلوك النموذج المحسن، وليس فجوة في القدرة الخام. لكن هذا لا يغير النتيجة النهائية.

الأهم من هذا التحدي المنفرد هو ما يشير إليه: عندما تصبح النماذج مفتوحة الأوزان ضمن نقاط قليلة من الحدود التقنية المتقدمة، وعندما يمكن لأي شخص تحميلها وتشغيلها محلياً، فإن هذا وضع تنافسي مختلف جذرياً عما كان موجوداً قبل عام. الفجوة صغيرة بما يكفي الآن لتظهر في نتائج كهذه.

ThinkPol