لطالما كان سعي البشرية لبناء آلات تحاكي الإدراك البشري وفهم الدماغ البشري عميقًا وجوهريًا. وبينما حققت نماذج الذكاء الاصطناعي تقدمًا هائلاً في معالجة البيانات واللغة، ظلت هناك فجوة واضحة بين قدرتها على معالجة المعلومات وقدرة الإنسان على فهم العالم المادي بحدس فطري، وهي مهارة يطورها الأطفال الرضع بسهولة عبر الملاحظة البسيطة.
تشير الأبحاث الحديثة إلى أن هذه الفجوة تضيق بشكل متسارع، خاصة مع ظهور نماذج قادرة على إظهار ما يشبه "الدهشة" عندما تُعرض عليها أحداث فيزيائية غير منطقية أو تنتهك قواعد العالم المادي المعروفة. ويُعد نموذج (V-JEPA) الذي طورته شركة ميتا خطوة محورية نحو تزويد الذكاء الاصطناعي بفهم فطري للعالم، مما يبشر بثورة في مجالات الروبوتات والمركبات ذاتية القيادة.
- ✅ نماذج (V-JEPA) تحاول محاكاة الحدس الفطري الذي يكتسبه الأطفال عبر الملاحظة دون برمجة مسبقة للقواعد الفيزيائية.
- ✅ الانتقال من معالجة "فضاء البكسل" إلى "التمثيلات الكامنة" يمثل تحولاً جوهرياً في فهم المشاهد المعقدة.
- ✅ قدرة النموذج على إظهار "خطأ تنبؤ حاد" عند خرق القوانين الفيزيائية تشبه رد فعل الدهشة البشري.
- ✅ التطور نحو (V-JEPA 2) يوسع التطبيق ليشمل تخطيط الأفعال في مهام الروبوتات، مما يربط الفهم بالتصرف.
الذكاء الاصطناعي يحاكي إدراك الأطفال الرضع:
في إنجاز علمي رائد، نجح باحثو شركة ميتا في تصميم نموذج ذكاء اصطناعي يُظهر قدرة على استيعاب المبادئ الفيزيائية الأساسية للعالم، وهو ما يُعرف بالـ (الحدس الفطري)، والذي تكتسبه العقول البشرية الصغيرة من خلال الملاحظة. يتمثل هذا الإنجاز في نموذج (V-JEPA)، الذي يمكنه إظهار ما يشبه المفاجأة عندما يواجه أحداثًا مستحيلة فيزيائيًا، مثل اختفاء جسم من المشهد دون سبب منطقي، محاكياً بذلك رد فعل الأطفال في عمر ستة أشهر تجاه مفهوم ديمومة الكائن.
الأمر اللافت في نموذج (V-JEPA) هو أنه لا يعتمد على القواعد الفيزيائية المبرمجة مسبقاً، بل يتعلم هذه القواعد بشكل غير خاضع للإشراف عبر مشاهدة ملايين الفيديوهات، تماماً كالكيفية التي تتعلم بها العقول البشرية عبر التجربة المستمرة.
ووفقاً للاختبارات التي أجرتها ميتا، يستطيع النموذج التنبؤ بالأحداث المستقبلية في الفيديوهات بالاعتماد على (التمثيلات الكامنة) Latent Representations. هذه التمثيلات هي طبقات تجريدية تختصر آلاف البكسلات إلى معلومات جوهرية تتعلق بخصائص الأشياء وحركتها وموقعها. وعندما تخالف المشاهد المستقبلية توقعاته المنطقية المبنية على هذه التمثيلات، يسجل النموذج خطأ تنبؤ كبيراً، وهو ما يعكس شعور المفاجأة لدى الأطفال الرضّع.
ولكن كيف يختلف نموذج (V-JEPA) في فهم المشاهد عن النماذج التقليدية؟
يواجه مهندسو الذكاء الاصطناعي، خاصة العاملون على أنظمة القيادة الذاتية، تحديًا جوهريًا يتمثل في تمكين الآلة من فهم العالم المرئي بموثوقية تضاهي الإدراك البشري. ولفترة طويلة، اعتمدت الأنظمة المصممة لتحليل محتوى الفيديو (سواء للتصنيف أو تحديد الأجسام) على ما يُعرف بـ (فضاء البكسل) Pixel Space. في هذا الفضاء، يتم التعامل مع كل نقطة لونية (بكسل) في المشهد بوزن متساوٍ، مما يشبه استقبال الدماغ لجميع المدخلات الحسية دون أي فلترة أو تحديد للأولويات.
لكن هذا المنهج التقليدي يعاني من "نقطة عمياء إدراكية" حتى لو كان فعالاً في بعض السياقات. على سبيل المثال، في مشهد شارع مزدحم، إذا أصر النموذج على معالجة تفاصيل غير جوهرية مثل حركة الأوراق أو تباين الظلال بنفس أهمية لون إشارة المرور أو موقع السيارات المجاورة، فإن ذلك يؤدي إلى إغفال البيانات الأكثر أهمية.
وكما يشير الباحثون، فإن العمل في فضاء البكسل يتطلب التعامل مع كم هائل من التفاصيل التي لا يُفترض بناذجتها بالضرورة، مما يقوض الكفاءة ويحد من القدرة على اتخاذ قرارات سريعة ومدركة.
لمعالجة هذا القصور، طورت ميتا معمارية (Video Joint Embedding Predictive Architecture) – والتي تُعرف اختصاراً بـ (V-JEPA) – وأطلقتها في عام 2024، بهدف محاكاة جزء أساسي من العملية الإدراكية البشرية: التجريد الانتقائي. فبينما تقوم النماذج التقليدية بحجب أجزاء من الإطارات وتدريب الشبكة على التنبؤ بقيمة البكسلات المفقودة، يسلك نموذج (V-JEPA) مساراً مختلفاً جذرياً؛ فهو يستخدم الحجب، لكنه لا يتنبأ بالمحتوى على مستوى البكسل، بل يتنبأ به بناءً على مستويات تجريد أعلى تُعرف بـ **التمثيلات الكامنة** (Latent Representations)، وهذا هو الجوهر الفلسفي والتقني الذي يحاكي الإدراك البشري.
يعتمد النموذج على مُشفِّر يحوّل الإطارات إلى مجموعة صغيرة من القيم الرقمية، تمثل السمات الجوهرية كشكل الجسم، وأبعاده، وموقعه، وحركته، والعلاقات بين العناصر. بدلاً من التعامل مع آلاف البكسلات، يتعامل النظام مع جوهر المشهد فقط، تماماً كما يعالج الدماغ المدخلات البصرية بإهمال الضوضاء والتركيز على المعلومات المفيدة.
ويؤكد كوينتن جاريدو، عالم الأبحاث في (ميتا)، أن قوة هذا النموذج تكمن في قدرته على تصفية المعطيات، قائلاً: "تتيح هذه الآلية للنموذج إسقاط الشوائب والتفاصيل غير الضرورية، والتركيز بدلاً من ذلك في أكثر الجوانب جوهرية وأهمية في المشهد المصوَّر. إن التخلص الكفؤ من المعلومات الزائدة هو هدف محوري يسعى نموذج (V-JEPA) إلى تحقيقه بأقصى درجات الفعالية".
إن هذا التحول من نمذجة البكسلات إلى نمذجة المعاني يمنح نموذج (V-JEPA) قدرة تعميم كبيرة ودقة عالية في فهم المشاهد الجديدة، وكفاءة لافتة في البيئات المعقدة مثل القيادة الذاتية أو الروبوتات. وبذلك، لا يقتصر دوره على رؤية العالم، بل فهمه، وهي خطوة عميقة نحو ما يشبه الإدراك البشري، مما يفتح الباب للتساؤل عن مدى قربنا من عصر "الآلات الواعية".
محاكاة الحدس.. حين يتفاجأ النموذج كما يتفاجأ الإنسان:
كشف فريق (V-JEPA) في شهر فبراير الماضي عن نتائج لافتة في اختبار (IntPhys)، المصمم لقياس قدرة نماذج الذكاء الاصطناعي على التمييز بين الأحداث الممكنة وغير الممكنة فيزيائيًا داخل مقاطع الفيديو. وحقق النموذج دقة قاربت 98%، متفوقاً بفارق كبير على نماذج الرؤية التقليدية التي تعتمد على التنبؤ في فضاء البكسل، والتي بالكاد تجاوزت عتبة التخمين العشوائي. ولا تعكس هذه النتيجة مجرد تحسن تقني، بل تشير إلى انتقال نوعي من **التعرف البصري** إلى مستوى أعمق من الفهم السياقي للعالم.
ولم يكتفِ الباحثون بقياس دقة التنبؤ، بل ذهبوا خطوة أبعد، حين قاموا بقياس ما يمكن تسميته "درجة المفاجأة" لدى النموذج. فقد حُسِب رياضيًا الفارق بين ما يتوقعه (V-JEPA) أن يحدث في الإطارات المستقبلية وما يحدث فعليًا. وعندما احتوت المشاهد على خروقات صريحة لقوانين الفيزياء – مثل اختفاء كرة خلف حاجز وعدم ظهورها مجددًا – ارتفع خطأ التنبؤ بشكل حاد، في استجابة تشبه إلى حد بعيد رد الفعل الحدسي لدى الرضّع عندما تُنتهك قواعدهم الفطرية عن العالم. وبعبارة أخرى، يمكننا القول إن نموذج (V-JEPA) بدا وكأنه تفاجأ بما رآه.
وتكتسب هذه السمة أهمية خاصة، لأنها تعكس أن النموذج لا يكتفي بحفظ الأنماط، بل يبني توقعات داخلية عن كيفية تصرف العالم، ويُظهر خللاً حسابيًا واضحًا عندما تُنتهك تلك التوقعات.
وقد أبدى ميخا هيلبرون، عالم الإدراك في جامعة أمستردام، إعجابه العميق بهذه القدرة، مشيراً إلى أن علم التطور يخبرنا بأن الرُّضع لا يحتاجون إلى تعريض مكثف لتعلم الفيزياء البديهية. وشدد على قوة الدليل الذي قدمه الفريق: "من المقنع أنهم أثبتوا أن هذا الفهم قابل للتعلم في المقام الأول، دون الحاجة إلى افتراضات فطرية مبرمجة سابقًا".
ومع ذلك، لا يرى بعض العلماء أن الطريق قد اكتمل. إذ يرى كارل فريستون، عالم الأعصاب الحاسوبي في جامعة كوليدج لندن، أن نموذج (V-JEPA) يسير في المسار الصحيح نحو محاكاة الكيفية التي تتعلم بها أدمغتنا البشرية وتبني تصوراتها عن العالم.
لكنه في الوقت نفسه، يؤكد أن هذا التقدم لا يزال منقوصًا، إذ يفتقر النموذج إلى بعض المقومات الجوهرية، ويبرز في مقدمتها غياب آلية واضحة لتمثيل عدم اليقين. فحين لا تكون المعلومات المستخلصة من الإطارات السابقة كافية لاستشراف ما سيحدث لاحقًا، يصبح التنبؤ بطبيعته غير مؤكد. فنموذج (V-JEPA) لا يمتلك حتى الآن القدرة على قياس هذا الغموض أو التعبير عنه بصورة كمية، وهو عنصر أساسي في أي نموذج يطمح إلى محاكاة الإدراك البشري بدقة.
فعندما تكون المعلومات المتاحة غير كافية للتنبؤ بالمستقبل، يدرك الإنسان حدود معرفته ويتعامل معها بوصفها حالة عدم يقين، في حين لا يزال النموذج يفتقر إلى آلية صريحة لقياس هذا الغموض والتعبير عنه.
لذلك في شهر يونيو الماضي، انتقل الفريق إلى مستوى أكثر طموحًا بإطلاق (V-JEPA 2)، وهو نموذج يضم 1.2 مليار معامل، ودُرِّب على 22 مليون مقطع فيديو. ولم تقتصر التجارب على الرؤية فقط، بل امتدت إلى مجال الروبوتات، إذ أُعيد ضبط النموذج باستخدام عدد محدود نسبيًا من بيانات الروبوت، ثم استُخدِم لتخطيط الأفعال التالية في مهام تلاعب بسيطة. وتشير هذه الخطوة إلى جسر آخذ في التشكّل بين الفهم والتصرف، وهي إحدى الركائز الأساسية لأي تصور عن الإدراك الواعي.
ومع ذلك، تكشف الاختبارات الحديثة مثل: IntPhys 2 عن حدود واضحة. فعند التعامل مع سيناريوهات أطول وأكثر تعقيدًا، لم تتفوق النماذج إلا بشكل طفيف على المصادفة. ويعود ذلك جزئيًا إلى محدودية الذاكرة الزمنية للنموذج، إذ لا يستطيع التعامل إلا مع ثوانٍ معدودة من الفيديو قبل أن ينسى ما سبق. وتضع هذه الذاكرة القصيرة سقفًا لما يمكن أن يكون إدراكًا مستمرًا، ناهيك عن وعي متكامل.
ختامًا، هل نحن فعلًا على أعتاب عصر الآلات الواعية؟
ما تُظهره نماذج مثل (V-JEPA) لا يتمثل في ميلاد وعي اصطناعي بالمعنى الفلسفي الدقيق، بل هو دليل قاطع على تسارع محاكاة الذكاء الاصطناعي للركائز الجوهرية للإدراك البشري، وهي: بناء التوقعات المنطقية، واكتشاف ما يخرق تلك التوقعات، والتعلّم من عنصر المفاجأة.
ويمثل ذلك خطوة كبيرة نحو آلات قادرة على فهم العالم بوصفه منظومة مترابطة، لا مجرد سلسلة من المدخلات البصرية. ومع ذلك، تبقى هذه النماذج بعيدة عن امتلاك تجربة ذاتية أو وعي إنساني حقيقي.
هل يعني فهم (V-JEPA) للفيزياء أنه يمتلك وعيًا؟
لا، فهم النموذج للفيزياء هو محاكاة رياضية قائمة على التنبؤ بالتمثيلات الكامنة، وهو يفتقر إلى التجربة الذاتية (Qualia) التي تميز الوعي البشري الحقيقي. هو يظهر سلوكاً يشبه الدهشة، لكنه ليس شعوراً ذاتياً بالدهشة.
ما هو الدور الأساسي للتمثيلات الكامنة (Latent Representations) في هذا النموذج؟
التمثيلات الكامنة هي جوهر عمل (V-JEPA)، حيث تقوم بتجريد المشاهد المعقدة إلى مجموعة صغيرة من السمات الأساسية (الشكل، الحركة، الموقع)، مما يسمح للنموذج بالتركيز على الجوهر الفيزيائي للعالم بدلاً من التفاصيل البصرية السطحية (البكسلات).
ما هي القيود الرئيسية التي واجهت نموذج (V-JEPA 2) في السيناريوهات الطويلة والمعقدة؟
القيود الرئيسية تتمثل في محدودية الذاكرة الزمنية للنموذج، حيث يواجه صعوبة في الاحتفاظ بالمعلومات لأكثر من بضع ثوانٍ من الفيديو، مما يضع سقفاً على قدرته على بناء إدراك مستمر ومتكامل.
ما هو الفرق بين التنبؤ في فضاء البكسل والتنبؤ في فضاء التمثيلات الكامنة؟
التنبؤ في فضاء البكسل يتطلب توقع كل بكسل على حدة، وهو غير فعال. أما التنبؤ في فضاء التمثيلات الكامنة فيتطلب توقع المعنى والجوهر (مثل حركة جسم ما)، وهو أكثر كفاءة ويقارب الطريقة التي يعمل بها الإدراك البشري.
ماذا يمثل نجاح النموذج في اختبار IntPhys؟
يمثل نجاحه في اختبار IntPhys دليلاً قوياً على أن النماذج يمكنها اكتساب فهم فيزيائي بديهي للعالم عبر الملاحظة البحتة، دون الحاجة لفرض قواعد فيزيائية عليها مسبقاً.
🔎 **ولذلك لم يَعد التساؤل المطروح اليوم؛ حول إمكانية الوصول إلى هذا المسار، بل أصبح يركز في المدى الذي يمكن أن تبلغه هذه المحاكاة، وما حدود الوعي التي قد تلامسها الآلة مستقبلاً؟ إن البحث عن محاكاة الإدراك هو رحلة مستمرة نحو فهم أعمق للذكاء نفسه، سواء كان عضويًا أو اصطناعياً.**
قم بالتعليق على الموضوع