مؤشر فأرة ذكي من Google بـ Gemini للتفاعل الصوتي

بقلم: سارة | محررة نماذج الذكاء الاصطناعي · صوت تحريري بإشراف بشري

بدلاً من إجبار المستخدمين على سحب عملهم إلى نوافذ الذكاء الاصطناعي المنفصلة، تعكس Google DeepMind المعادلة بالكامل: مؤشر فأرة مدعوم بـ Gemini يأتي إلى المستخدم أينما كان يعمل، يفهم السياق المرئي ويستجيب للأوامر الطبيعية دون تعقيدات التعليمات المكتوبة. (وفقاً لـ Google DeepMind)

التقنية الجديدة تحل مشكلة أساسية في تصميم واجهات الذكاء الاصطناعي الحالية: الحاجة لكتابة تعليمات دقيقة ومفصلة للحصول على استجابة مفيدة. المؤشر الذكي يلتقط السياق البصري والدلالي حول موقعه تلقائياً، فيكفي الإشارة إلى صورة مبنى وقول “أظهر لي الاتجاهات” دون تفاصيل إضافية.

واجهة تجريبية تُظهر ثلاثة مؤشرات فأرة بمسارات زرقاء متوهجة مع أوامر صوتية مختلفة — النموذج التجريبي يدمج الأوامر الصوتية مع الإشارة البصرية في بيئة واحدة

الحفاظ على تدفق العمل – قدرات الذكاء الاصطناعي تعمل عبر جميع التطبيقات دون “تحويلات ذكاء اصطناعي” بينها. يمكن الإشارة إلى PDF وطلب ملخص نقطي للصق مباشرة في إيميل، أو التنقل فوق جدول إحصائيات وطلب نسخة رسم بياني دائري، أو تحديد وصفة وطلب مضاعفة جميع المقادير
الإشارة والكلام المدمج – النماذج الحالية تتطلب تعليمات دقيقة للحصول على استجابة جيدة، فالمستخدم يكتب وصف مفصل في prompt طويل. المؤشر الذكي يبسط هذه العملية بالتقاط السياق المرئي والدلالي بسلاسة، حيث يكفي الإشارة ويعرف النظام تماماً أي كلمة أو فقرة أو جزء من صورة أو كتلة كود يحتاج المستخدم مساعدة معها
قوة “هذا” و”ذاك” الطبيعية – في التفاعلات اليومية، البشر نادراً ما يتحدثون بفقرات طويلة مفصلة، بل نقول “اصلح هذا” أو “انقل ذاك هنا” أو “ماذا يعني هذا؟” معتمدين على الإيماءات الجسدية والسياق المشترك لملء فجوات الفهم. نظام ذكاء اصطناعي يفهم هذا المزيج من السياق والإشارة والكلام يمكّن المستخدمين من تقديم طلبات معقدة بطريقة مختصرة طبيعية
تحويل البكسلات إلى كيانات قابلة للتفاعل – لعقود، أجهزة الكمبيوتر كانت تتتبع فقط مكان إشارتنا. الذكاء الاصطناعي الآن يفهم أيضاً ما نشير إليه، محولاً البكسلات إلى كيانات منظمة مثل الأماكن والتواريخ والكائنات يمكن التفاعل معها فوراً. صورة لملاحظة مخربشة تصبح قائمة مهام تفاعلية، إطار متوقف في فيديو سفر يصبح رابط حجز لذلك المطعم الجذاب

Google تدمج هذه المبادئ الآن في منتجاتها العملية، بدءاً من Chrome مع Gemini حيث يمكن تحديد منتجات في صفحة ويب وطلب مقارنتها، أو الإشارة إلى مكان في غرفة المعيشة لتصور أريكة جديدة. كذلك يصل قريباً Magic Pointer في تجربة Googlebook الجديدة للاستفادة من Gemini عند أطراف الأصابع.

لاختبار القدرات فورياً، تتيح Google بيئة تجريبية في AI Studio مع رابطين مباشرين: تحرير الصور والبحث عن الأماكن في الخرائط. الفريق يخطط لاختبار مفاهيم مستقبلية عبر منصات أخرى بما في ذلك Google Labs’ Disco.

رغم الوعود الطموحة، يبقى التساؤل حول دقة فهم السياق في البيئات المعقدة وآليات الحماية للبيانات الحساسة. التقنية تمثل خطوة واضحة نحو جعل التكنولوجيا تتكيف مع السلوك البشري بدلاً من العكس، لكن نجاحها سيتوقف على قدرتها على التعامل مع تعقيدات الاستخدام الفعلي خارج البيئات المحكومة.

Google DeepMind Blog

Google تحول مؤشر الفأرة لمساعد ذكي بـ Gemini عبر 4 مبادئ تفاعلية

مقالات ذات صلة

مصدرُك العربيلمستقبل الذكاء الاصطناعي

مقالات ذات صلة

MIT Technology Review ينظم حلقة نقاش مباشرة حول نماذج العالم في الذكاء الاصطناعي

Statewright يكسر حلقة فشل الوكلاء الذكيين بآلات الحالة المرئية

مقالات ذات صلة

براندون باوم: كيف أحول هواتف آيفون إلى استوديو سينمائي بـ25 مليون متابع

Arize تكشف إحصائيات مذهلة: تريليون عملية تتبع شهرياً

llama.cpp b8708 يطلق 20 إصداراً متخصصاً مع KleidiAI

Atomic تطور خرائط المعرفة الذكية للمطورين والباحثين

مصدرُك العربي
لمستقبل الذكاء الاصطناعي