Gemini 3.5 Flash يدمج computer use لبناء وكلاء ذكاء

🎧 استمع للملخص

بقلم: سارة | محررة نماذج الذكاء الاصطناعي · صوت تحريري بإشراف بشري

شعار <a href= — Gemini 3.5 Flash — النموذج الذي بات يرى شاشتك ويتحكم فيها

لم تعد قدرة Gemini 3.5 Flash على التحكم في الحاسوب مجرد إضافة جانبية — أصبحت أداةً مدمجة في صلب النموذج. أعلنت جوجل ديب مايند اليوم دمج “computer use” بوصفها أداةً built-in ضمن Gemini 3.5 Flash، مما يتيح للمطورين بناء وكلاء ذكاء اصطناعي قادرة على الرؤية والاستدلال والتصرف عبر بيئات المتصفح والهاتف وسطح المكتب — كل ذلك عبر نموذج واحد موحّد.

الأهمية هنا تكمن في التحول الجوهري: سابقاً، كانت هذه القدرة حكراً على نموذج مستقل هو Gemini 2.5 computer use، منفصلاً عن بقية النظام البيئي لـ Gemini. اليوم صار النموذج الرئيسي الخفيف والسريع — الذي يتمتع أصلاً بقدرات function calling وSearch وMaps grounding — قادراً على إتمام مهام وكيلية طويلة الأمد كاختبار البرمجيات تلقائياً ومعالجة العمل المعرفي عبر التطبيقات المؤسسية.

نتائج معيارية لأداء Gemini 3.5 Flash في مهام استخدام الحاسوب — نتائج benchmark تُظهر أداء Gemini 3.5 Flash في مهام الحاسوب الوكيلية — تحقّق من الأرقام الفعلية قبل المقارنة

تقدم جوجل هذا التحديث بوصفه أفضل أداء حتى الآن لمهام الحاسوب الوكيلية (وفقاً لـ Google DeepMind). أمثلة عملية نشرتها جوجل تشمل استخدام 3.5 Flash لتحليل تطبيق Gemini وإعادة قائمة منظّمة بميزاته، فضلاً عن إجراء مراجعة أمنية لوثائق التوثيق الخاصة به للكشف عن مشكلات الوصول. هذان المثالان وحدهما يكشفان طبيعة حالات الاستخدام المستهدفة: أتمتة مهام المعرفة المكثفة، لا مجرد نقر الأزرار.

الجانب الذي يستحق التمحيص هو كيفية معالجة جوجل لمخاطر الأمان. الوكلاء العاملون في بيئات حية عُرضة لهجمات حقن التعليمات غير المباشر (indirect prompt injection)، حيث تُدرج صفحات ويب أو مستندات خبيثة تعليمات مخفية للوكيل. تعتمد جوجل هنا نهج “الدفاع متعدد الطبقات” من خلال ثلاثة محاور:

تدريب تعدائي موجّه (targeted adversarial training) مدمج في النموذج لتقليل مخاطر حقن التعليمات في البيئات الحية.
إجبار المستخدم على التأكيد الصريح قبل تنفيذ أي إجراء حساس أو غير قابل للتراجع — وهو ضمان اختياري للمؤسسات.
إيقاف المهمة تلقائياً عند اكتشاف حقن تعليمات غير مباشر — ضمان مؤسسي اختياري ثانٍ.

تُوصي جوجل علناً بأن يجمع المطورون هذه الأدوات مع sandboxing آمن وتحقق بشري في الحلقة وضوابط وصول صارمة. هذه النصيحة ليست مجرد تحفظ قانوني — بل إقرار صريح بأن لا أداة واحدة كافية لتأمين وكيل يعمل في بيئات حقيقية.

اقتباس من Browserbase حول تجربتهم مع Gemini 3.5 Flash — Browserbase من أوائل الشركاء الذين اختبروا computer use في Gemini 3.5 Flash

تفتح جوجل هذه القدرة عبر قناتين: Gemini API للمطورين الأفراد والشركات الناشئة، وGemini Enterprise Agent Platform للبيئات المؤسسية. كما تتاح تجربة تجريبية عبر Browserbase في بيئة demo. هذا يعني أن المطور العربي الذي يبني وكيلاً للأتمتة يستطيع البدء الآن بالأدوات المتاحة دون انتظار وصول نموذج متخصص.

المسألة التي لم تُجبها جوجل بوضوح: ما حدود ما يستطيع الوكيل فعله في بيئات الهاتف المحمول تحديداً، وما أثر دمج computer use على سرعة الاستجابة أو كلفة API مقارنةً بالنموذج الأصلي دون هذه القدرة. هذه تساؤلات سيجيب عنها المطورون من خلال التجربة الفعلية قبل أن تجيب عنها وثائق جوجل.

Google DeepMind Blog