أعلنت جوجل عن إتاحة نموذج "جيميني 2.5 لاستخدام الحاسوب" (Gemini 2.5 Computer Use model) في مرحلة المعاينة للمطورين، وهو النموذج الذي يشكل العمود الفقري لتقنيات متقدمة مثل "مشروع مارينر" (Project Mariner) والقدرات الوكيلة (Agentic Features) ضمن وضع الذكاء الاصطناعي (AI Mode). يمثل هذا الإطلاق خطوة هامة نحو تمكين الذكاء الاصطناعي من التفاعل المباشر والفعال مع واجهات المستخدم الرسومية (GUIs)، خاصة في سياق المتصفحات ومواقع الويب.
- ✅ إتاحة نموذج متخصص جديد قادر على التفاعل مع واجهات المستخدم الرسومية للمتصفحات والمواقع الإلكترونية.
- ✅ يعتمد عمل النموذج على حلقة متكررة من التحليل والتنفيذ حتى إتمام المهمة المطلوبة بنجاح.
- ✅ القدرة على تنفيذ مجموعة واسعة من الإجراءات، تشمل النقر، الكتابة، التنقل، التمرير، وسحب وإفلات العناصر.
- ✅ تفوق ملحوظ في الأداء على معايير التحكم في المتصفحات مقارنةً بالمنافسين الرئيسيين مثل كلود وOpenAI.

يعتمد التفاعل بين النموذج وبيئة التشغيل على دورة عمل محددة بدقة لضمان إنجاز المهام المعقدة. تبدأ العملية بإرسال طلب للمستخدم إلى النموذج، مصحوباً بلقطة شاشة للبيئة الحالية وسجل للإجراءات التي تمت مؤخراً. يقوم النموذج بتحليل هذه المدخلات ليُصدر استجابة تكون عادةً عبارة عن استدعاء دالة (Function Call) يمثل إجراءً واجهة المستخدم، مثل **النقر** أو **الكتابة**، كما يمكنه تنفيذ إجراءات أخرى مثل الرجوع/التقدم، البحث في الويب، الانتقال إلى عنوان URL محدد، وتغيير موضع المؤشر أو السحب والإفلات.
بعد تنفيذ الإجراء بواسطة الكود الموجود على جانب العميل، يتم إرجاع لقطة شاشة جديدة للواجهة الرسومية وعنوان URL الحالي إلى نموذج "استخدام الحاسوب" كاستجابة للدالة، لتبدأ الحلقة من جديد. هذا التكرار يضمن المتابعة الدقيقة حتى تحقيق الهدف النهائي للمستخدم. لمعرفة المزيد حول هذا التطور، يمكنك الاطلاع على المقال الأصلي.

تم تزويد هذا النموذج بقدرات تحليلية وبصرية متقدمة مستمدة من نموذج Gemini 2.5 Pro. وقد أظهرت جوجل أمثلة حية على قدراته، حيث نجح في تنفيذ مهمة معقدة تتطلب التنقل بين صفحة تسجيل وموقع CRM لإدارة منتجع صحي للحيوانات الأليفة، بما في ذلك تحديد موعد زيارة محدد. للاطلاع على تفاصيل التنفيذ، انقر هنا لمشاهدة المقطع الأصلي.
وفي مثال آخر، أظهر النموذج قدرته على تنظيم مهام نادٍ فني من خلال الدخول إلى لوحة ملاحظات رقمية (Sticky Note Jam) وإعادة ترتيب الملاحظات بشكل منطقي ضمن الفئات المحددة مسبقًا، بما في ذلك سحب الملاحظات وإفلاتها في الأقسام الصحيحة. يتميز هذا النموذج بكونه مُحسَّنًا بشكل أساسي للتحكم في متصفحات الويب، ولكنه يُظهر أيضاً وعوداً قوية في مهام التحكم بواجهات أندرويد كما أثبت في معيار **AndroidWorld**، رغم أنه لم يُحسَّن بعد للتحكم على مستوى نظام التشغيل المكتبي.


أكدت جوجل أن هذا النموذج يتمتع بأفضل جودة للتحكم في المتصفحات مع أقل زمن استجابة (Latency) مقارنةً بالحلول الأخرى المتاحة. وتستخدم جوجل بالفعل إصدارات من هذا النموذج داخليًا لتسريع تطوير البرمجيات عبر اختبار واجهات المستخدم الرسومية. بالإضافة إلى ذلك، بدأت جوجل برنامج وصول مبكر للمطورين الخارجيين لإنشاء أدوات مساعدة وأتمتة سير العمل المتقدمة. يتوفر نموذج Gemini 2.5 Computer Use حاليًا في المعاينة العامة عبر واجهة برمجة تطبيقات (API) في كل من Google AI Studio و Vertex AI.
لتجربته الآن: يمكن الاطلاع على بيئة العرض التوضيحي المستضافة بواسطة Browserbase. قم بزيارة هذا الرابط لتشاهد النموذج وهو يعمل بشكل مباشر.
ما هي المكونات الرئيسية التي يتفاعل معها نموذج جيميني 2.5 لاستخدام الحاسوب؟
النموذج مُحسَّن بشكل أساسي للتعامل مع المتصفحات والواجهات الرسومية المرتبطة بالويب. ومع ذلك، تظهر قدرات واعدة في التحكم بواجهات تطبيقات أندرويد، مما يشير إلى إمكانيات واسعة في مجال أتمتة المهام عبر أنظمة التشغيل المختلفة.
كيف يضمن النموذج إتمام المهام المعقدة عبر الإنترنت؟
يعتمد النموذج على حلقة تكرارية مستمرة: يحلل المدخلات (لقطة الشاشة والسجل)، يولد إجراءً (مثل النقر)، ينفذ الإجراء، ثم يعود بلقطة شاشة جديدة لتحديث حالته، ويكرر العملية حتى يتم الوصول إلى الحالة النهائية المطلوبة للمهمة.
ما هي الميزة التنافسية الرئيسية التي يقدمها هذا النموذج في السوق؟
تتمثل الميزة الرئيسية في تحقيق "أفضل جودة للتحكم في المتصفحات مع أقل زمن استجابة" مقارنةً بالعروض المنافسة من شركات أخرى مثل OpenAI و Claude، مما يجعله خيارًا فعالًا وسريع الاستجابة لأتمتة المهام الرقمية.
هل يمكن للمطورين الوصول إلى هذا النموذج في الوقت الحالي؟
نعم، يتوفر نموذج Gemini 2.5 Computer Use في مرحلة المعاينة العامة للمطورين عبر واجهة برمجة تطبيقات جوجل (API) المتاحة في كل من Google AI Studio ومنصة Vertex AI، بالإضافة إلى وجود برنامج وصول مبكر خاص.
🔎 في الختام، يمثل إطلاق نموذج "جيميني 2.5 لاستخدام الحاسوب" تحولاً جذريًا في كيفية تفاعلنا مع التكنولوجيا الرقمية، إذ ينتقل الذكاء الاصطناعي من مجرد معالجة النصوص والأوامر إلى كونه عاملًا فعليًا قادرًا على التنقل والتفاعل المعقد داخل بيئات المستخدم الرسومية، مما يفتح آفاقًا واسعة لأتمتة سير العمل وتعزيز تجربة المستخدمين عبر الويب وتطبيقات أندرويد بفضل أدائه المتفوق وسرعة استجابته العالية.
قم بالتعليق على الموضوع