
بقلم: يوسف | محرر أدوات الذكاء الاصطناعي · صوت تحريري بإشراف بشري
مطور البرمجيات lahfir طرح أداة agent-desktop المبنية بلغة Rust كحل أصلي لأتمتة تطبيقات سطح المكتب للوكلاء الذكية، مع وعد بتقليل استهلاك التوكن بنسبة 78-96% (وفقاً للمطور) مقارنة بالطرق التقليدية القائمة على لقطات الشاشة.
الأداة تستغل شجرة الوصولية الأصلية في نظام التشغيل للوصول المباشر لعناصر واجهة المستخدم، متجنبة الحاجة لتحليل البيكسل أو الاعتماد على المتصفحات. هذا النهج يمكنها من العمل مع أي تطبيق يدعم تقنيات الوصولية – من Finder و Safari إلى Xcode و Slack.
- تثبيت الأداة: تنفيذ
npm install -g agent-desktopلتحميل النسخة المجمعة تلقائياً، أو تجميعها من المصدر باستخدامcargo build --release - منح أذونات الوصولية: إضافة تطبيق Terminal في إعدادات النظام تحت Privacy & Security > Accessibility، أو تشغيل
agent-desktop permissions --request - الحصول على نظرة عامة: استخدام
agent-desktop snapshot --skeleton --app Slack -i --compactللحصول على خريطة ثلاثية الأبعاد مع عدد العناصر الفرعية - التعمق في المناطق المطلوبة: تطبيق
agent-desktop snapshot --root @e3 -i --compactللحفر في عنصر محدد بمرجعه - تنفيذ الإجراءات: استعمال
agent-desktop click @e12للنقر أوagent-desktop type @e5 "quarterly report"للكتابة في الحقول - التحقق من النتائج: إعادة تشغيل snapshot للمنطقة نفسها للتأكد من حدوث التغيير المطلوب ومتابعة الحلقة
تقنية “Progressive Skeleton Traversal” هي المحرك الرئيسي لتوفير التوكن – تبدأ بعرض سطحي بعمق 3 مستويات فقط، وتُظهر للحاويات المقطوعة عدد عناصرها الفرعية مع مراجع للحفر اللاحق. هذا بدلاً من مسح كامل الشجرة في كل عملية، ما يقلل بشكل جذري كمية البيانات المرسلة للنموذج اللغوي.
الأداة تقدم 53 أمراً تغطي المراقبة والتفاعل وإدارة لوحة المفاتيح والماوس والإشعارات والحافظة وإدارة النوافذ (وفقاً للمطور). المخرجات تأتي بصيغة JSON منظمة مع رموز أخطاء واضحة وإرشادات للتعافي، إضافة لنظام مراجع محددة (@e1, @e2) صالحة حتى اللقطة التالية.
للمطورين الساعين للدمج السريع، تشحن كل إصدارة مكتبة C-ABI جاهزة تسمح للغات البرمجة بتحميل الأداة مرة واحدة واستدعاؤها داخلياً، بدلاً من تشغيل عملية منفصلة في كل استدعاء. هذا يقلل زمن الاستجابة بشكل ملحوظ للتطبيقات التفاعلية.
القيد الأساسي حالياً هو دعم macOS فقط مع خطط مُعلنة (وفقاً للمطور) لإضافة Windows و Linux. كما تتطلب إعدادات أذونات خاصة قد تعقد النشر في البيئات المؤسسية، واعتمادها على شجرة الوصولية يحد من فعاليتها مع التطبيقات ضعيفة الدعم لهذه التقنية.







