تُحدَّث يومياً

مصدرُك العربي
لمستقبل الذكاء الاصطناعي

أخبار، تقارير، أدوات وتحليلات يومية — كل ما تحتاجه لمتابعة ثورة الذكاء الاصطناعي باللغة العربية

✅ تم الاشتراك!
تعلم و استخدام الذكاء الاصطناعي

agent-desktop يجلب أتمتة سطح المكتب بـ78% توفير في التوكن

🎧 استمع للملخص

بقلم: يوسف | محرر أدوات الذكاء الاصطناعي · صوت تحريري بإشراف بشري

مطور البرمجيات lahfir طرح أداة agent-desktop المبنية بلغة Rust كحل أصلي لأتمتة تطبيقات سطح المكتب للوكلاء الذكية، مع وعد بتقليل استهلاك التوكن بنسبة 78-96% (وفقاً للمطور) مقارنة بالطرق التقليدية القائمة على لقطات الشاشة.

الأداة تستغل شجرة الوصولية الأصلية في نظام التشغيل للوصول المباشر لعناصر واجهة المستخدم، متجنبة الحاجة لتحليل البيكسل أو الاعتماد على المتصفحات. هذا النهج يمكنها من العمل مع أي تطبيق يدعم تقنيات الوصولية – من Finder و Safari إلى Xcode و Slack.

  1. تثبيت الأداة: تنفيذ npm install -g agent-desktop لتحميل النسخة المجمعة تلقائياً، أو تجميعها من المصدر باستخدام cargo build --release
  2. منح أذونات الوصولية: إضافة تطبيق Terminal في إعدادات النظام تحت Privacy & Security > Accessibility، أو تشغيل agent-desktop permissions --request
  3. الحصول على نظرة عامة: استخدام agent-desktop snapshot --skeleton --app Slack -i --compact للحصول على خريطة ثلاثية الأبعاد مع عدد العناصر الفرعية
  4. التعمق في المناطق المطلوبة: تطبيق agent-desktop snapshot --root @e3 -i --compact للحفر في عنصر محدد بمرجعه
  5. تنفيذ الإجراءات: استعمال agent-desktop click @e12 للنقر أو agent-desktop type @e5 "quarterly report" للكتابة في الحقول
  6. التحقق من النتائج: إعادة تشغيل snapshot للمنطقة نفسها للتأكد من حدوث التغيير المطلوب ومتابعة الحلقة

تقنية “Progressive Skeleton Traversal” هي المحرك الرئيسي لتوفير التوكن – تبدأ بعرض سطحي بعمق 3 مستويات فقط، وتُظهر للحاويات المقطوعة عدد عناصرها الفرعية مع مراجع للحفر اللاحق. هذا بدلاً من مسح كامل الشجرة في كل عملية، ما يقلل بشكل جذري كمية البيانات المرسلة للنموذج اللغوي.

الأداة تقدم 53 أمراً تغطي المراقبة والتفاعل وإدارة لوحة المفاتيح والماوس والإشعارات والحافظة وإدارة النوافذ (وفقاً للمطور). المخرجات تأتي بصيغة JSON منظمة مع رموز أخطاء واضحة وإرشادات للتعافي، إضافة لنظام مراجع محددة (@e1, @e2) صالحة حتى اللقطة التالية.

للمطورين الساعين للدمج السريع، تشحن كل إصدارة مكتبة C-ABI جاهزة تسمح للغات البرمجة بتحميل الأداة مرة واحدة واستدعاؤها داخلياً، بدلاً من تشغيل عملية منفصلة في كل استدعاء. هذا يقلل زمن الاستجابة بشكل ملحوظ للتطبيقات التفاعلية.

القيد الأساسي حالياً هو دعم macOS فقط مع خطط مُعلنة (وفقاً للمطور) لإضافة Windows و Linux. كما تتطلب إعدادات أذونات خاصة قد تعقد النشر في البيئات المؤسسية، واعتمادها على شجرة الوصولية يحد من فعاليتها مع التطبيقات ضعيفة الدعم لهذه التقنية.

GitHub

مقالات ذات صلة

زر الذهاب إلى الأعلى