
بقلم: ليلى | محررة أدوات المطورين · صوت تحريري بإشراف بشري
تطلق شركة Kimi أداة Kimi Vendor Verifier (KVV) مفتوحة المصدر بالتزامن مع إصدار نموذج K2.6، وتهدف لحل مشكلة جوهرية في نظام النماذج مفتوحة المصدر: كيف تتأكد أن النموذج يعمل بنفس الدقة عبر منصات الاستضافة المختلفة؟
المشكلة بدأت بسيطة. تلقت Kimi شكاوى متكررة من المجتمع حول انخفاض غير مبرر في درجات المعايير المرجعية لنموذج K2 Thinking. التحقيق أكد أن السبب في معظم الحالات كان سوء استخدام معايير الـ Decoding. الحل الأولي جاء على مستوى API: فرض Temperature=1.0 و TopP=0.95 إلزامياً في وضع التفكير مع التحقق من إرجاع محتوى التفكير بشكل صحيح.
لكن مشاكل أكثر تعقيداً ظهرت سريعاً. في تقييم محدد على LiveBenchmark، لاحظت الشركة تبايناً صارخاً بين API الطرف الثالث و API الرسمي. بعد اختبار موسع لمزودي البنية التحتية المختلفين، اكتشفت أن هذا الاختلاف منتشر على نطاق واسع.
هذا كشف مشكلة أعمق: كلما زادت انفتاحية الأوزان وتنوعت قنوات النشر، قلت إمكانية التحكم في الجودة. إذا لم يستطع المستخدمون التمييز بين “عيوب قدرات النموذج” و”انحرافات التنفيذ الهندسي”، ستنهار الثقة في النظام البيئي مفتوح المصدر حتماً.
الحل التقني يتألف من ست معايير مرجعية محورية اختارتها Kimi لكشف أخطاء البنية التحتية المحددة:
- Pre-Verification: يتحقق من تطبيق قيود معايير API (temperature, top_p وغيرها) بشكل صحيح. جميع الاختبارات يجب أن تنجح قبل المتابعة لتقييم المعايير المرجعية
- OCRBench: اختبار سريع لمدة 5 دقائق للخطوط متعددة الوسائط، يكشف المشاكل الأساسية في معالجة الصور والنصوص
- MMMU Pro: يتحقق من معالجة مدخلات الرؤية المسبقة عبر اختبار مدخلات بصرية متنوعة، ويكشف أخطاء تحويل الصور
- AIME2025: اختبار ضغط المخرجات الطويلة، يكتشف أخطاء KV cache وتدهور التكميم التي تخفيها المعايير المرجعية القصيرة
- K2VV ToolCall: يقيس اتساق التشغيل (F1) ودقة JSON Schema. أخطاء الأدوات تتفاقم في العوامل الذكية، وهذا الاختبار يكتشفها مبكراً
- SWE-Bench: اختبار الترميز العوكلي الكامل (غير متاح مفتوح المصدر بسبب اعتماده على sandbox)
المنهجية تتجاوز مجرد الكشف إلى الإصلاح الجذري. تتعاون Kimi مع مجتمعات vLLM و SGLang و KTransformers لإصلاح الأسباب الجذرية وليس مجرد كشف الأعراض. بدلاً من انتظار الشكاوى بعد النشر، توفر الشركة وصولاً مبكراً لاختبار النماذج، مما يتيح لمزودي البنية التحتية التحقق من أنظمتهم قبل مواجهة المستخدمين للمشاكل.
تكلفة التشغيل والأداء محسوبة بدقة (وفقاً لمدونة Kimi). أكملت الشركة تشغيل دورة التقييم الكاملة على خادمين NVIDIA H20 بـ8 وحدات GPU، مع تنفيذ متسلسل استغرق تقريباً 15 ساعة. لتحسين كفاءة التقييم، تم تحسين الـ scripts لسيناريوهات الاستدلال طويلة المدى، بما في ذلك آليات الاستدلال التدفقي وإعادة المحاولة التلقائية واستئناف نقاط التحكم.
النتائج ستكون متاحة علناً عبر نتائج تقييم Kimi API K2VV لحساب درجة F1، مع خطة للحفاظ على لوحة نتائج عامة للموردين. هذه الشفافية تشجع الموردين على إعطاء الأولوية للدقة.
المبادرة تنطلق من مبدأ أن “الأوزان مفتوحة، المعرفة لتشغيلها بشكل صحيح يجب أن تكون كذلك أيضاً”. Kimi تتوسع في تغطية الموردين وتبحث عن اختبارات عوكلية أخف، مع فتح باب التواصل عبر البريد الإلكتروني المحدد في المصدر الأصلي.







