في اختبار غير متوقع.. "GPT-4o" و"Gemini 1.5" يفشلان أمام عقبات لعبة من الثمانينيات!

كتب بواسطة: سعد الحكيم |

في سابقة فريدة من نوعها، تحوّلت لعبة "سوبر ماريو بروس" من مجرد منصة ترفيهية كلاسيكية إلى حقل تجارب متقدّم لقياس مدى نضج وتطور الذكاء الاصطناعي، فقد استُخدمت هذه اللعبة، التي تعود جذورها إلى عام 1985، في سلسلة من الاختبارات التي أجرتها منظمة Hao AI Lab لتقييم قدرة النماذج المتطورة على التفاعل مع بيئات رقمية ديناميكية التجربة لم تجرَ على نسخة اللعبة التقليدية، بل على نسخة تعمل من خلال محاكي متكامل مزود بإطار عمل GamingAgent، هذا النظام البرمجي سمح للنماذج بالتحكم بشخصية "ماريو" عبر أوامر برمجية تستند إلى فهم الموقف واتخاذ القرار بشكل لحظي، في سيناريو يحاكي طريقة تفاعل البشر مع التحديات المتغيرة.

المفاجأة الكبرى كانت في أداء النماذج المشاركة، فقد تفوّق نموذج Claude 3،7 من شركة Anthropic بشكل ملحوظ، متجاوزاً حتى نسخة سابقة منه هي Claude 3،5، ما يعكس تطوراً واضحاً في سرعة المعالجة وقدرة اتخاذ القرار في الزمن الحقيقي في المقابل، أظهرت النماذج المنافسة مثل GPT-4o من OpenAI وGemini 1،5 Pro من Google أداءً متواضعاً نسبياً، وفشلت في مجاراة تعقيد القرارات التي تتطلب تزامناً دقيقاً بين الحواس الافتراضية وردود الفعل البرمجية، وهو ما فتح الباب أمام تساؤلات جديدة حول حدود هذه التقنيات في البيئات التفاعلية.
إقرأ ايضاً:ما لا تعرفه عن أمعائك: كيف يؤثر طعامك على صحتك النفسية والجسدية؟ميزة صغيرة تنهي معاناة طويلة لمستخدمي آيفون حول العالم

ورغم أن هذه النماذج زُوّدت بتعليمات أساسية – كالقفز والمراوغة وتحاشي العوائق – إلا أن الأداء الفعلي تفاوت بشكل حاد، ما يعكس اختلافات جوهرية في التصميم الداخلي لكل نموذج ومدى تكامله مع المتغيرات الحركية أحد أبرز المفارقات التي كشفت عنها التجربة تمثلت في أن النماذج المصممة على أساس استدلال منطقي متسلسل، والتي يُفترض أنها أكثر قدرة على التفكير العميق عانت من صعوبة أكبر في مجاراة اللعبة مقارنةً بالنماذج "غير الاستدلالية"، وهو ما قلب التوقعات رأساً على عقب.

هذه النتيجة فتحت الباب أمام نقاش جديد حول مدى ملاءمة الألعاب كمقياس حقيقي لتطور الذكاء الاصطناعي، فرغم أن الألعاب الرقمية لطالما شكّلت ميدان اختبار مثالي للنماذج الذكية، إلا أن التعقيد المتزايد في التصميم البرمجي أصبح يتطلب معايير جديدة لتقييم الفاعلية الباحث أندريه كارباثي، أحد مؤسسي OpenAI، عبّر عن هذا التوجّه في منشور له على منصة "إكس"، قائلاً: "لا أعرف حقاً ما هي المقاييس التي يجب أن نعتمدها الآن، بصراحة، لا يمكنني تحديد مدى تطور هذه النماذج بالفعل"، وهو تصريح يعكس التردد داخل مجتمع الأبحاث حول معيارية هذه الاختبارات.

التجربة سلطت الضوء أيضاً على الفرق بين القدرة النظرية للنموذج في فهم التعليمات والقدرة العملية على تطبيقها في سيناريوهات متغيرة، وهو ما يُعد الفارق الجوهري بين الذكاء الاصطناعي كأداة تحليلية وبين كونه نظاماً قابلاً للدمج في بيئات الحياة اليومية ما جرى في تجربة "سوبر ماريو" يفتح الباب على مصراعيه أمام مفهوم جديد لاختبار الذكاء الاصطناعي، حيث لم تعد قدرة النموذج على إجراء محادثة أو كتابة نص هي المقياس الوحيد، بل قدرته على التفاعل واتخاذ قرارات فورية ضمن بيئات مرئية تفاعلية.

هذه النوعية من الاختبارات تحمل مؤشرات مهمة على مدى جهوزية الذكاء الاصطناعي للانتقال من مستوى "المساعد النصي" إلى مستوى "الكيان التفاعلي"، الذي يمكن دمجه يوماً ما في روبوتات فعلية أو أنظمة قيادة ذاتية الاختبارات مثل هذه قد تدفع شركات تطوير الذكاء الاصطناعي إلى إعادة النظر في أولويات تدريب نماذجها، بحيث تشمل المزيد من التجارب البيئية التفاعلية وليس فقط المحادثات النصية أو المعالجة اللغوية الطبيعية.

لكن في المقابل، يجب التنبه إلى أن هذه الألعاب – رغم أهميتها – تظل بيئات محكومة بقواعد صارمة ومحدودة مقارنة بتعقيد العالم الواقعي، ما يعني أن نجاح النموذج في تخطي "ماريو" لا يعني بالضرورة استعداده لمعالجة المواقف البشرية اليومية المعقدة ورغم ذلك، فإن التجربة قدمت لمحة مثيرة عن الاتجاهات القادمة في مجال الذكاء الاصطناعي، حيث ستكون النماذج مطالبة بإثبات فاعليتها في سيناريوهات متعددة الأبعاد، تجمع بين النص والصورة والحركة واتخاذ القرار.

ولعل أكثر ما شد الانتباه في هذه التجربة هو أن نموذج الذكاء الاصطناعي لم يفز فقط على مستوى برمجي، بل بدأ يقترب شيئاً فشيئاً من نمط التفكير البشري أثناء اللعب، ما قد يكون نواة لمستقبل يُشرك فيه الذكاء الاصطناعي بشكل أعمق في الصناعات الترفيهية والتعليمية والتفاعلية.

ما لا تعرفه عن أمعائك: كيف يؤثر طعامك على صحتك النفسية والجسدية؟

ميزة صغيرة تنهي معاناة طويلة لمستخدمي آيفون حول العالم

بـ 18 ساعة من الخدمة يوميًا.. طريقك إلى مسجد قباء أصبح أسهل من أي وقت!

الليلة للحسم.. الأخضر الأولمبي يطارد المجد أمام فرنسا في نهائي تولون!

إنجاز سعودي بصري.. مستشفى خالد للعيون يستضيف عقول الطب العالمي!