وصف المدون

مبتكر مبسط

إعلان الرئيسية

أعلنت جوجل عن إتاحة نموذج "جيميني 2.5 لاستخدام الحاسوب" (Gemini 2.5 Computer Use model) في مرحلة المعاينة للمطورين، وهو النموذج الذي يشكل العمود الفقري لتقنيات متقدمة مثل "مشروع مارينر" (Project Mariner) والقدرات الوكيلة (Agentic Features) ضمن وضع الذكاء الاصطناعي (AI Mode). يمثل هذا الإطلاق خطوة هامة نحو تمكين الذكاء الاصطناعي من التفاعل المباشر والفعال مع واجهات المستخدم الرسومية (GUIs)، خاصة في سياق المتصفحات ومواقع الويب.

  • ✅ إتاحة نموذج متخصص جديد قادر على التفاعل مع واجهات المستخدم الرسومية للمتصفحات والمواقع الإلكترونية.
  • ✅ يعتمد عمل النموذج على حلقة متكررة من التحليل والتنفيذ حتى إتمام المهمة المطلوبة بنجاح.
  • ✅ القدرة على تنفيذ مجموعة واسعة من الإجراءات، تشمل النقر، الكتابة، التنقل، التمرير، وسحب وإفلات العناصر.
  • ✅ تفوق ملحوظ في الأداء على معايير التحكم في المتصفحات مقارنةً بالمنافسين الرئيسيين مثل كلود وOpenAI.
عرض توضيحي لنموذج جوجل جيميني 2.5 لاستخدام الحاسوب

يعتمد التفاعل بين النموذج وبيئة التشغيل على دورة عمل محددة بدقة لضمان إنجاز المهام المعقدة. تبدأ العملية بإرسال طلب للمستخدم إلى النموذج، مصحوباً بلقطة شاشة للبيئة الحالية وسجل للإجراءات التي تمت مؤخراً. يقوم النموذج بتحليل هذه المدخلات ليُصدر استجابة تكون عادةً عبارة عن استدعاء دالة (Function Call) يمثل إجراءً واجهة المستخدم، مثل **النقر** أو **الكتابة**، كما يمكنه تنفيذ إجراءات أخرى مثل الرجوع/التقدم، البحث في الويب، الانتقال إلى عنوان URL محدد، وتغيير موضع المؤشر أو السحب والإفلات.

بعد تنفيذ الإجراء بواسطة الكود الموجود على جانب العميل، يتم إرجاع لقطة شاشة جديدة للواجهة الرسومية وعنوان URL الحالي إلى نموذج "استخدام الحاسوب" كاستجابة للدالة، لتبدأ الحلقة من جديد. هذا التكرار يضمن المتابعة الدقيقة حتى تحقيق الهدف النهائي للمستخدم. لمعرفة المزيد حول هذا التطور، يمكنك الاطلاع على المقال الأصلي.

تم تزويد هذا النموذج بقدرات تحليلية وبصرية متقدمة مستمدة من نموذج Gemini 2.5 Pro. وقد أظهرت جوجل أمثلة حية على قدراته، حيث نجح في تنفيذ مهمة معقدة تتطلب التنقل بين صفحة تسجيل وموقع CRM لإدارة منتجع صحي للحيوانات الأليفة، بما في ذلك تحديد موعد زيارة محدد. للاطلاع على تفاصيل التنفيذ، انقر هنا لمشاهدة المقطع الأصلي.

وفي مثال آخر، أظهر النموذج قدرته على تنظيم مهام نادٍ فني من خلال الدخول إلى لوحة ملاحظات رقمية (Sticky Note Jam) وإعادة ترتيب الملاحظات بشكل منطقي ضمن الفئات المحددة مسبقًا، بما في ذلك سحب الملاحظات وإفلاتها في الأقسام الصحيحة. يتميز هذا النموذج بكونه مُحسَّنًا بشكل أساسي للتحكم في متصفحات الويب، ولكنه يُظهر أيضاً وعوداً قوية في مهام التحكم بواجهات أندرويد كما أثبت في معيار **AndroidWorld**، رغم أنه لم يُحسَّن بعد للتحكم على مستوى نظام التشغيل المكتبي.

ليست هناك تعليقات
إرسال تعليق

قم بالتعليق على الموضوع

إعلان وسط الموضوع

ad

إعلان أخر الموضوع

Ad
Back to top button