ثورة "الرؤية الوكيلة": كيف يغير نموذج Gemini 3 Flash الجديد طريقة فهم الذكاء الاصطناعي للصور؟

أطلقت جوجل ميزة ثورية جديدة تُعرف باسم "الرؤية الوكيلة" (Agentic Vision) لنموذج Gemini 3 Flash، وهي تقنية تهدف إلى جعل المهام المتعلقة بالصور أكثر دقة عبر "ربط الإجابات بالأدلة البصرية الملموسة". تمثل هذه الخطوة قفزة نوعية في كيفية تفاعل نماذج الذكاء الاصطناعي مع البيانات المرئية، حيث لا يكتفي النموذج بمجرد النظر، بل يبدأ في التحليل والتحقيق بشكل نشط.

✅ تعتمد تقنية Agentic Vision على دورة "التفكير، التنفيذ، والملاحظة" لضمان أعلى مستويات الدقة.
✅ قدرة النموذج على استخدام لغة البرمجة "بايثون" لتحليل الصور وتكبير التفاصيل الدقيقة بشكل آلي.
✅ تحسن ملحوظ في الأداء بنسبة تصل إلى 10% في اختبارات القياس البصرية مقارنة بالنماذج السابقة.
✅ الميزة متاحة حالياً للمطورين عبر واجهة برمجة تطبيقات جيميناي وللمستخدمين عبر تطبيق Gemini.

واجهة تقنية Agentic Vision الجديدة في نموذج جيميناي 3 فلاش

توضح جوجل أن نماذج الذكاء الاصطناعي المتقدمة مثل جوجل جيميناي كانت تعالج العالم عادةً من خلال نظرة واحدة ثابتة. فإذا فات النموذج تفصيل صغير، مثل رقم تسلسلي على رقاقة دقيقة أو لافتة شارع بعيدة، فإنه يضطر إلى التخمين، وهو ما قد يؤدي إلى نتائج غير دقيقة.

آلية عمل Agentic Vision: دورة التفكير والعمل

النهج الجديد يعامل الرؤية كـ "تحقيق نشط" من خلال دمج الاستدلال البصري مع تنفيذ الأكواد البرمجية وأدوات أخرى مستقبلاً. وللإجابة على المطالبات التي تحتوي على صور، يقوم Gemini 3 Flash بصياغة "خطط للتكبير، الفحص، والتحكم في الصور خطوة بخطوة". وتعتمد هذه العملية على ثلاث مراحل أساسية:

التفكير (Think): يقوم النموذج بتحليل استفسار المستخدم والصورة الأولية، ثم يصيغ خطة عمل متعددة الخطوات.
التنفيذ (Act): يقوم النموذج بإنشاء وتنفيذ كود بايثون للتلاعب بالصور بشكل نشط (مثل القص، التدوير، أو إضافة ملاحظات توضيحية) أو تحليلها (مثل إجراء حسابات أو عد العناصر).
الملاحظة (Observe): يتم إلحاق الصورة المحولة بنافذة سياق النموذج، مما يسمح له بفحص البيانات الجديدة بسياق أفضل قبل تقديم الإجابة النهائية.

مخطط توضيحي لدورة عمل تقنية الرؤية الوكيلة في جيميناي

استخدام بايثون كـ "مسودة بصرية" للدقة المتناهية

بدلاً من مجرد وصف الصورة، يمكن لنموذج Gemini 3 Flash الآن تنفيذ التعليمات البرمجية للرسم مباشرة على "اللوحة" لتعزيز استنتاجاته. أحد الأمثلة البارزة هو الطلب من تطبيق Gemini "عد الأصابع في يد ما". لتجنب أخطاء العد الشائعة، يستخدم النموذج لغة بايثون لرسم صناديق محيطة وتسميات رقمية فوق كل إصبع يحدده، مما يضمن أن إجابته النهائية مبنية على فهم دقيق لكل بكسل في الصورة.

علاوة على ذلك، يقوم النموذج بالتكبير تلقائياً عندما يكتشف تفاصيل دقيقة في الصورة، ويمكنه أيضاً تحليل الجداول عالية الكثافة وتنفيذ كود بايثون لتصور النتائج. وتؤكد جوجل أن النماذج اللغوية الكبيرة القياسية غالباً ما تعاني من "الهلوسة" أثناء العمليات الحسابية البصرية متعددة الخطوات، لكن Gemini 3 Flash يتجاوز ذلك عبر نقل الحسابات إلى بيئة بايثون حتمية، مما يستبدل التخمين الاحتمالي بالتنفيذ القابل للتحقق.

نتائج مذهلة وتوفر واسع للميزة

أدت تقنية Agentic Vision إلى تحسن ثابت بنسبة تتراوح بين 5% إلى 10% في جودة النتائج عبر معظم اختبارات القياس البصرية للنموذج. بدأت هذه الميزة بالفعل في الوصول إلى تطبيق Gemini مع نموذج التفكير (Thinking model)، وهي متاحة اليوم للمطورين عبر Gemini API في Google AI Studio وVertex AI.

نتائج اختبارات الأداء لنموذج جيميناي 3 فلاش بعد إضافة ميزة الرؤية الوكيلة

في المستقبل، سيصبح Gemini 3 Flash أفضل في تدوير الصور أو إجراء الرياضيات البصرية دون الحاجة إلى "تلميح" صريح من المستخدم. حالياً، يقرر النموذج ضمنياً متى يجب التكبير، ولكن مستقبلاً ستمكنه أدوات إضافية من استخدام البحث الويب والبحث العكسي عن الصور لتعميق فهمه للعالم. كما سيتم توفير ميزة Agentic Vision في نماذج Gemini الأخرى قريباً.

اقرأ المزيد في مدونة جوجل الرسمية

ما هي تقنية Agentic Vision بالضبط؟

هي ميزة جديدة تجعل نموذج الذكاء الاصطناعي يتعامل مع الصور كـ "وكيل" نشط، حيث يقوم بالتكبير والقص وتحليل التفاصيل باستخدام برمجيات خارجية مثل بايثون لضمان دقة المعلومات المستخرجة.

كيف يمنع Gemini 3 Flash أخطاء العد في الصور؟

يستخدم النموذج "مسودة بصرية" حيث يقوم برسم مربعات وتسميات فوق العناصر التي يراها (مثل الأصابع أو الأرقام) باستخدام كود بايثون، مما يمنعه من التخمين العشوائي ويجعله يعتمد على حسابات دقيقة.

هل تقتصر هذه الميزة على المهام البسيطة فقط؟

لا، الميزة قادرة على معالجة جداول البيانات المعقدة وعالية الكثافة، وتحويل البيانات المرئية إلى رسوم بيانية أو حسابات رياضية دقيقة عبر تنفيذ أكواد برمجية متخصصة.

أين يمكنني تجربة ميزة Agentic Vision حالياً؟

الميزة متاحة حالياً للمطورين عبر Gemini API في منصات Google AI Studio وVertex AI، كما بدأت في الظهور لمستخدمي تطبيق Gemini العاديين عبر نموذج التفكير.

🔎 في الختام، يمثل إطلاق ميزة Agentic Vision في نموذج Gemini 3 Flash تحولاً جوهرياً من الذكاء الاصطناعي القائم على الملاحظة السطحية إلى الذكاء الاصطناعي القائم على التحليل المنهجي. من خلال دمج القدرة البصرية مع القوة الحسابية للغة بايثون، تضع جوجل معياراً جديداً للدقة في التعامل مع الوسائط المتعددة، مما يفتح آفاقاً واسعة للمطورين والمستخدمين على حد سواء في استخراج قيمة حقيقية من البيانات البصرية المعقدة.

وصف المدون

تابعنا على

القائمة العليا