مع التطورات المذهلة التي يشهدها الذكاء الاصطناعي، وظهور نماذج متقدمة مثل GPT-5.2 مؤخراً ضمن منظومة ChatGPT، كان من المتوقع أن تتمكن هذه الأنظمة من تجاوز العقبات السابقة. ومع ذلك، لا يزال هناك لغز بسيط يعيق هذه النماذج العملاقة منذ إطلاقها في عام 2022؛ وهو سؤال بسيط للغاية، لدرجة أن طفلاً في عمر الخامسة يستطيع الإجابة عليه دون عناء. هذا التحدي لا يتعلق بالتعقيد الرياضي أو التحليل العميق، بل بالتعامل مع بنية اللغة الأساسية.
- ✅ فشل متكرر في الإجابة على أسئلة عد الحروف البسيطة في كلمات إنجليزية شائعة.
- ✅ المشكلة متجذرة في آلية "ترميز" (Tokenization) نماذج اللغة الكبيرة (LLMs) وليس في نقص الذكاء العام.
- ✅ يعتمد النموذج على التنبؤ بالرموز (الأجزاء) وليس على فهم الحروف الفردية بشكل مباشر.
- ✅ على الرغم من استثمار مليارات الدولارات، يبقى هذا الخلل الهيكلي قائماً في العديد من الإصدارات.
الكشف عن سر الفشل: الإشكالية في "ترميز" البيانات
السؤال الذي يمثل كابوساً لـ ChatGPT هو: "كم عدد حروف الراء في كلمة 'Strawberry'؟". الإجابة الصحيحة هي ثلاثة أحرف (R)، لكن النموذج، بما في ذلك الإصدارات الحديثة، يجيب بثقة تامة غالباً بـ "اثنان". هذا ليس مجرد خطأ عابر، بل هو عيب هيكلي عميق في كيفية معالجة نماذج اللغة الكبيرة (LLMs) للنصوص. لفهم هذا، يجب أن ندرك أن ChatGPT لا يقرأ الكلمات كبشر، حرفاً بحرف.
بدلاً من ذلك، تقوم هذه النماذج بتقسيم الكلمات إلى وحدات أصغر تسمى "الرموز" (Tokens). يمكن أن يكون الرمز كلمة كاملة، أو مقطعاً صوتياً، أو جزءاً من كلمة. في حالة كلمة "strawberry"، يقوم نظام الترميز المعتمد من OpenAI (مثل نظام o200k_harmony المستخدم في GPT-40 وغيره) بتجزئة الكلمة إلى رموز مثل: "st" - "raw" - "berry".
عندما يطلب النظام عد حرف "R"، فإنه يعد الرموز التي تحتوي على هذا الحرف. في التقسيم المذكور ("st" - "raw" - "berry")، يجد الرمز "raw" والرمز "berry" يحتويان على حرف الراء، مما يجعل العدد الإجمالي هو اثنان (2)، وهذا هو ما يقدمه النموذج كإجابة. هذا الخلل يوضح أن النموذج لا يفهم مفهوم الحرف كوحدة مستقلة، بل يعتمد كلياً على الأنماط المستخلصة من الرموز التي تدرب عليها. هذا عيب جوهري في بنية LLMs الحالية.
إن الاعتماد على التنبؤ بالرمز التالي، بدلاً من التحليل الهجائي الدقيق، هو ما يقود إلى هذه التناقضات الغريبة. لقد نجحت OpenAI في معالجة العديد من الثغرات السابقة، مثل تلك التي كانت تحدث مع كلمات محددة مثل "solidgoldmagikarp" في GPT-3 والتي كانت تؤدي إلى إهانات أو مخرجات غير منطقية. لكن مشكلة الترميز هذه تبدو أكثر عمقاً وتتعلق بطريقة بناء النموذج نفسه، حيث أن كل تحديث يحاول معالجة بعض الأخطاء ولكنه قد يفتح الباب أمام أخطاء جديدة في سياقات أخرى.
ما هي المشكلة الهيكلية الأساسية التي يواجهها ChatGPT؟
المشكلة الهيكلية الأساسية هي أن ChatGPT هو محرك تنبؤي يعتمد بشكل أساسي على الإحصائيات والأنماط اللغوية التي تعلمها من مجموعة بيانات التدريب الضخمة. عندما يُسأل عن عدد حروف "R" في كلمة "Strawberry"، فإنه لا يقوم بعملية عد حرفي بسيطة، بل يتنبأ بالإجابة الأكثر احتمالاً بناءً على الرموز التي رآها سابقاً في سياقات مشابهة، وهذه الرموز لا تتطابق دائماً مع العدد الفعلي للحروف الفردية.
هل يؤثر نظام الترميز هذا على فهم اللغة العربية؟
نعم، يؤثر نظام الترميز على جميع اللغات، بما فيها العربية، ولكن بطرق مختلفة. في العربية، قد يؤدي الترميز إلى تقسيم الكلمة الواحدة إلى رموز متعددة بشكل غير متوقع، مما يؤثر على دقة فهم الإعراب، أو التركيب الصرفي، أو حتى عد الحروف المكررة أو المتشابهة، نظراً لأن النظام يعتمد على "الرمز" كوحدة أساسية بدلاً من الحرف المنطقي.
هل يمكن لـ OpenAI إصلاح هذا الخلل بشكل كامل في المستقبل؟
إصلاح هذا الخلل يتطلب غالباً إعادة هيكلة جوهرية لكيفية معالجة النماذج للغة على المستوى الأدنى، أو تطوير نظام ترميز جديد لا يعتمد فقط على التكرار الإحصائي للرموز. قد يتطلب الأمر دمج وحدات تحليل لغوي تقليدية (مثل التحليل الصوتي أو الهجائي) مع شبكات LLMs الحالية، وهو ما يشكل تحدياً كبيراً في الحفاظ على سرعة وكفاءة النموذج الحالي.
ماذا يعني هذا بالنسبة لموثوقية الذكاء الاصطناعي؟
يعني هذا أن الموثوقية المطلقة في المهام التي تتطلب دقة حسابية أو إحصائية بسيطة (مثل عد العناصر المكونة لكلمة ما) لا تزال بعيدة المنال. بينما يتفوق الذكاء الاصطناعي في مهام التوليد والإبداع، تظهر هشاشته في المهام التي تبدو بديهية للمنطق البشري البسيط، مما يتطلب من المستخدمين التحقق دائماً من المخرجات في المسائل التي تتطلب دقة مطلقة.
🔎 في الختام، يظل هذا اللغز الصغير المتعلق بكلمة "Strawberry" بمثابة تذكير قوي بأن نماذج الذكاء الاصطناعي العملاقة، مهما بلغت قوتها الحسابية، لا تزال أسيرة لكيفية تدريبها وتفكيكها للغة. إنها تعمل على مستوى الرموز الإحصائية، وليس مستوى الفهم البشري للجزء والكل. طالما بقي نظام الترميز هذا هو الأساس، فمن المرجح أن تستمر مثل هذه الإخفاقات البسيطة في الظهور، مما يدفع المهندسين نحو ابتكار معماريات جديدة تتجاوز حدود التنبؤ الاحتمالي البحت.
قم بالتعليق على الموضوع