وصف المدون

إعلان الرئيسية

.

كشفت شركة جوجل مؤخراً عن مجموعة جديدة من نتائج الاختبارات المعيارية لتحديد أفضل نماذج الذكاء الاصطناعي في مجال تطوير تطبيقات أندرويد، مع توضيح تكلفة كل نموذج بناءً على عدد الرموز (Tokens). والمفاجأة كانت في أداء نموذج Gemini 3.5 Flash من جوجل، الذي أظهر استهلاكاً كثيفاً للموارد في تطوير أندرويد، ومع ذلك فشل في حجز مكان له ضمن قائمة أفضل خمسة نماذج.



ملخص المقال:

يتناول هذا التقرير نتائج "Android Bench" الأخيرة، حيث يحلل الفجوة بين التكلفة والأداء لنموذج Gemini 3.5 Flash مقارنة بالمنافسين مثل GPT 5.5 وClaude، موضحاً لماذا قد لا يكون الخيار الأمثل للمبرمجين حالياً.

  • ✅ نموذج Gemini 3.5 Flash يستهلك 3 أضعاف التكلفة مقارنة بنسخة Pro السابقة مع أداء أبطأ.
  • ✅ تصدر نموذج GPT 5.5 قائمة الأفضل في برمجة أندرويد محققاً أعلى النتائج.
  • ✅ جوجل تعتمد معيار "Android Bench" لتحديث ترتيب النماذج بناءً على الكفاءة والسعر.
  • ✅ هناك فجوة بنسبة 9% في نجاح المهام البرمجية لصالح النماذج الأقدم والأرخص.

مع تراجع الحماس العام تجاه روبوتات الدردشة التقليدية، بدأت شركات كبرى مثل جوجل، OpenAI، وAnthropic في توجيه تركيزها نحو النماذج "الوكيلة" (Agentic Models) التي تتميز بقوة استثنائية في كتابة الأكواد البرمجية. وقد بدأ المطورون بالفعل في الاعتماد على هذه النماذج فيما يعرف بـ "البرمجة بالحس" (Vibe Coding)، حيث يتم نقل العبء الأكبر من تطوير البرمجيات إلى النماذج اللغوية الكبيرة.

شهدت النماذج الأخيرة تحسناً كبيراً في قدراتها البرمجية الخاصة بنظام أندرويد، وقد حرصت جوجل على مراقبة النماذج الأفضل أداءً خلال الأشهر القليلة الماضية. يخضع معيار "Android Bench" لتحديثات مستمرة كلما أطلقت جوجل نماذجها الخاصة، مثل Gemini 3.5 Flash الأخير، لمقارنتها بالمنافسين في السوق.

تحليل نتائج Android Bench وتفوق المنافسين

النقطة الأبرز في تقرير جوجل هي كيفية تصنيف هذه النماذج؛ حيث يحصل كل نموذج على درجة من 100، تعبر عن النسبة المئوية لحالات البرمجة التي نجح في حلها عبر 10 محاولات. تدرج جوجل الأداء المتوقع وتاريخ آخر اختبار، مع ملاحظة بقاء بعض النماذج القوية في الصدارة منذ فبراير الماضي.

في النسخة الأحدث من الاختبارات، تبدو الصورة أكثر تكلفة وتعقيداً. فقد احتل Gemini 3.5 Flash المركز السادس، متأخراً عن نماذج مثل GPT 5.5 وGemini 3.1 Pro Preview الذي تم اختباره في وقت سابق من هذا العام.

وعلى الرغم من الترويج لنموذج Gemini 3.5 Flash كبديل أسرع وأرخص لنسخة Pro، إلا أن نتائج الاختبارات المعيارية أظهرت عكس ذلك تماماً في مجال تطوير أندرويد. حيث سجل النموذج الجديد زمن تأخير أعلى وفجوة أداء بلغت 9% في نجاح المهام.

المفاجأة الكبرى تكمن في التكلفة؛ حيث يستهلك نموذج جوجل الأحدث متوسط 355.9 رمزاً بتكلفة 147.1 دولاراً لكل جولة اختبار، مقارنة بـ 73.3 رمزاً فقط لنموذج Gemini 3.1 Pro Preview وبتكلفة تعادل ثلث هذا المبلغ تقريباً.

من الجدير بالذكر أن جوجل تدرج نسخة المعاينة من Gemini 3.1 Pro، ومع ذلك، فإن هذا النموذج التجريبي يحقق نتائج أعلى من النموذج الذي كان من المفترض أن يكون أكثر كفاءة وسرعة.

أما بالنسبة للمنافسين، فقد سجل GPT 5.5 تكلفة مماثلة لكل جولة، لكن Gemini 3.5 Flash استخدم رموزاً أكثر بمقدار 5.5 ضعفاً. وفي الوقت نفسه، جاء نموذج Claude Opus 4.7 في المركز الرابع بتكلفة واستهلاك رموز أقل، مما يضعه في منطقة متوازنة. ولم تصدر جوجل بعد نتائج النماذج الأحدث مثل Fable 5.

النموذج النتيجة متوسط التأخير إجمالي الرموز التكلفة
GPT 5.5 74 15.7 64.7 $134.2
GPT 5.4 72.4 21.2 64.2 $91.7
Gemini 3.1 Pro Preview 72.4 11.1 73.3 $47.9
Claude Opus 4.7 68.7 11.6 90.0 $124.3
Claude Opus 4.6 66.6 9.9 69.5 $84.4
Gemini 3.5 Flash 63.7 14.2 355.9 $147.1
GLM 5.1 59.7 33.4 80.2 $46.7
Kimi K2.6 58.6 29.9 94.3 $42.5
Claude Sonnet 4.6 58.4 8.2 47.9 $40.4
DeepSeek V4 Pro 55.4 35.8 132.7 $13.7

تتضمن القائمة العديد من النماذج مفتوحة الأوزان إلى جانب النماذج المغلقة الشهيرة مثل Claude وGPT. وظلت الصدارة فعلياً دون تغيير كبير منذ التحديث الأخير، باستثناء إزالة نموذج GPT 5.3 Codex من القائمة.

تواصل جوجل تحديث هذه القائمة بانتظام مع اختبار المزيد من النماذج. وفي جوهرها، تبدو هذه الاختبارات مؤشراً قوياً على أداء النماذج في تطوير أندرويد. وعلى الرغم من أن Gemini 3.5 Flash قد حقق تحسينات ملحوظة في مهام أخرى، إلا أن برمجة أندرويد لا تبدو نقطة قوته الحالية، خاصة مع قيام جوجل بتعديل حدود الاستخدام والتكلفة.

لماذا يعتبر Gemini 3.5 Flash أغلى في الاستخدام؟

يرجع ذلك إلى استهلاكه المرتفع لعدد الرموز (Tokens) خلال عمليات المعالجة البرمجية، حيث أظهرت الاختبارات أنه يستهلك أكثر من 5 أضعاف الرموز التي تستهلكها النماذج المنافسة لإنجاز نفس المهمة.

ما هو النموذج الأفضل حالياً لبرمجة تطبيقات أندرويد؟

بناءً على نتائج Android Bench الأخيرة، يتصدر GPT 5.5 القائمة من حيث النتيجة الإجمالية، بينما يظل نموذج Gemini 3.1 Pro Preview خياراً ممتازاً يجمع بين الأداء العالي والتكلفة المنخفضة جداً.

هل يعني هذا أن Gemini 3.5 Flash نموذج سيئ؟

ليس بالضرورة؛ فالنموذج يتفوق في مهام وكيلة ولغوية أخرى، لكن في السياق المحدد لبرمجة أندرويد، أظهرت الأرقام الرسمية من جوجل أنه لا يزال يحتاج إلى الكثير من التحسين ليصبح منافساً اقتصادياً وفعالاً.

🔎 في الختام، يظهر لنا بوضوح أن السباق في عالم الذكاء الاصطناعي لا يعتمد فقط على إطلاق النماذج الأحدث، بل على مدى كفاءتها في التوازن بين التكلفة التشغيلية والدقة البرمجية. وبينما تستمر جوجل في صقل أدواتها، يبقى المطور هو المستفيد الأول من هذه المنافسة الشرسة التي تضع بين يديه خيارات متنوعة تناسب ميزانيته واحتياجاته التقنية.

ليست هناك تعليقات
إرسال تعليق

قم بالتعليق على الموضوع

إعلان أول الموضوع

Ads

إعلان وسط الموضوع

ad

إعلان أخر الموضوع

Ad