وكيل Dirac يتصدر بـ65.2% ويوفر 64.8% من التكاليف

🎧 استمع للملخص

بقلم: يوسف | محرر أدوات الذكاء الاصطناعي · صوت تحريري بإشراف بشري

انتزع وكيل Dirac مفتوح المصدر قمة لوحة Terminal-Bench-2 بنتيجة 65.2% باستخدام gemini-3-flash-preview، محطماً رقم جوجل الرسمي البالغ 47.6% ومتفوقاً حتى على وكيل Junie CLI المدفوع الذي حقق 64.3%. الإنجاز الأكبر؟ تحقيق هذا الأداء بتكلفة أقل بـ 64.8% من المتوسط، أي بانخفاض قدره 2.8 مرة.

(وفقاً لفريق Dirac) الفكرة الأساسية بسيطة: ظاهرة تدهور قدرة النماذج اللغوية على التفكير مع زيادة طول النص المدخل معروفة جيداً. بدلاً من التوسع الأعمى في المحتوى، يركز Dirac على انتقاء دقيق يحافظ على جودة التفكير مع تقليل التكاليف جذرياً.

جدول المقارنة التفصيلي لثماني مهام برمجية معقدة يكشف تفوق Dirac المنهجي. في Task1 على مكتبة transformers بـ8 ملفات، حقق Dirac النجاح الكامل بـ0.13 دولار بينما فشل Kilo تماماً وحقق Cline النجاح بـ0.37 دولار. Task6 على نفس المكتبة بـ25 ملف أظهر فجوة أكبر: Dirac أنجزها بـ0.34 دولار مقابل 0.87 لـCline و1.51 لـKilo.

النتيجة الإجمالية صادمة: Dirac سجل نجاحاً كاملاً 8/8 بمتوسط تكلفة 0.18 دولار للمهمة، بينما أقرب منافس حقق 8/8 أيضاً لكن بتكلفة 0.44 دولار. المنافسون الآخرون تراوحت نجاحاتهم بين 5/8 و6/8 بتكاليف أعلى.

تقنية التحرير بالمرساة التجزيئية — Hash-Anchored Edits تستهدف التعديلات بدقة باستخدام مراسي مستقرة بدلاً من أرقام الأسطر المتغيرة

Hash-Anchored Edits: تستخدم hash مستقراً للأسطر بدلاً من الأرقام التقليدية، مما يتجنب مشاكل “ضياع الترجمة” عند تعديل الكود
AST-Native Precision: فهم مدمج لبناء اللغات البرمجية كـTypeScript و Python و C++، يمكّن من عمليات هيكلية كاستخراج الدوال وإعادة تنظيم الفئات بدقة 100%
Multi-File Batching: معالجة وتعديل ملفات متعددة في استدعاء واحد للنموذج، مما يقلل زمن الاستجابة والتكاليف بشكل كبير
High-Bandwidth Context: انتقاء محتوى محسّن يحافظ على سرعة الوكيل مع ضمان وصول أهم المعلومات للنموذج
Autonomous Tool Use: قراءة وكتابة الملفات وتنفيذ أوامر الطرفية واستخدام متصفح بلا واجهة، كل ذلك مع سير عمل يعتمد على الموافقات

دقة AST الأصلية — التعديلات الهيكلية مثل استخراج الدوال تتم بدقة مطلقة بفهم بناء اللغة البرمجية

التركيب متاح عبر VS Code Marketplace أو CLI باستخدام npm install -g dirac-cli. الأوامر الأساسية تشمل dirac auth للمصادقة، ثم dirac “تحليل هيكل هذا المشروع” لأول مهمة. يدعم مقدمي خدمات متعددين من Anthropic إلى OpenAI وGoogle وOpenRouter، لكن بشرط واحد غير قابل للتفاوض: النماذج يجب أن تدعم استدعاء الأدوات الأصلي.

قرار عدم دعم MCP قد يثير جدلاً في المجتمع. بينما يؤكد الفريق أن هذا يضمن “أقصى موثوقية وأداء”، فإن بعض الفرق التي تعتمد على Model Context Protocol قد تجد هذا القرار مقيداً. خاصة وأن Dirac مبني كـfork من مشروع Cline، مما يطرح أسئلة حول الاتجاهات المستقبلية للمشروعين.

اكتشف الفريق خطأً في Cline بعد إجراء الاختبارات، تسبب في تقليل تكاليف التقييم المبلغ عنها بشكل طفيف (0.03 مقابل 0.05 دولار لكل مليون token للقراءة المؤقتة). تم تقديم طلب سحب للإصلاح، لكن الفريق يؤكد أن هذا لن يغير الفجوة الكبيرة في الأداء.

الرهان الحقيقي هنا ليس على Dirac وحده، بل على فلسفة التصميم: هل المستقبل في نماذج أكبر بمحتوى أكثر، أم في نماذج أذكى بانتقاء أدق؟ النتائج تصب لصالح الخيار الثاني، على الأقل في مهام البرمجة المعقدة.

GitHub