
بقلم: نور | محررة الأبحاث والدراسات · صوت تحريري بإشراف بشري
نموذج Qwen3.6-35B-A3B المضغوط بحجم 20.9 جيجابايت والذي يعمل على الأجهزة المحلية، تفوق بوضوح على Claude Opus 4.7 الجديد في مهمة رسم SVG لبجعة تقود دراجة هوائية (وفقاً لـ Simon Willison’s Weblog). هذه النتيجة غير المتوقعة جاءت خلال اختبار Simon Willison الشهير الذي يُعرف بـ”معيار البجعة على الدراجة”.
Qwen مع إطار دراجة صحيح وغيوم في السماء”>استخدم Willison النسخة المضغوطة من Qwen3.6 عبر LM Studio على MacBook Pro M5، مقابل Claude Opus 4.7 عبر واجهة Anthropic الرسمية. رسم Qwen إطار دراجة صحيح الشكل مع غيوم في السماء وكيس بجعة واضح المعالم، بالإضافة لنص “Pelican on a Bicycle!” أسفل الرسم. في المقابل، أنتج Claude Opus إطاراً خاطئاً للدراجة مع شمس صفراء بدلاً من الغيوم، وبجعة تنظر للخلف مع كيس أقل وضوحاً.

جرب Willison Claude Opus مرة ثانية باستخدام إعداد “thinking_level: max” للحصول على أقصى أداء، لكن النتيجة كانت مشابهة – إطار دراجة خاطئ بطريقة مختلفة مع خطوط أكثر جرأة وبجعة تشبه البجع أكثر قليلاً (وفقاً لـ Simon Willison’s Weblog).
للتأكد من أن النتيجة ليست محض صدفة أو أن Qwen لم يتدرب خصيصاً على هذا الاختبار، أجرى Willison اختباراً سرياً إضافياً بطلب رسم “فلامنجو يقود دراجة أحادية”. مرة أخرى، تفوق Qwen3.6 مع رسم أفضل وتعليق SVG مبدع: “” بينما أنتج Opus 4.7 رسماً أقل جودة.
هذه التجربة تكشف تعقيدات قياس أداء النماذج اللغوية الكبيرة. يعترف Willison أن “معيار البجعة” بدأ كمزحة حول صعوبة مقارنة هذه النماذج، لكنه لاحظ ارتباطاً مستمراً بين جودة الرسوم المنتجة والفائدة العامة للنماذج. الرسوم الأولى في أكتوبر 2024 كانت رديئة، بينما الإصدارات الحديثة مثل Gemini 3.1 Pro تنتج رسوماً يمكن استخدامها فعلياً.
لكن اليوم انكسر هذا الارتباط. يقول Willison بوضوح: “أشك بشدة أن نسخة مضغوطة بحجم 21 جيجابايت من نموذج Qwen أقوى أو أكثر فائدة من أحدث إصدار احترافي من Anthropic” (وفقاً لـ Simon Willison’s Weblog). لكن إذا كنت تحتاج رسم SVG لبجعة تقود دراجة، فإن Qwen3.6 على الكمبيوتر المحمول أفضل حالياً من Opus 4.7.
النتيجة تثير أسئلة أساسية حول طرق تقييم النماذج والمعايير التي نعتمد عليها. هل المهام البصرية المتخصصة مؤشر موثوق للقدرات العامة؟ أم أنها تكشف نقاط قوة وضعف متناثرة لا تعكس الأداء الشامل؟ ما نعرفه أن الاختبارات المبسطة قد تخفي تعقيدات حقيقية في أداء هذه النماذج المتقدمة.




