امتحان "آخر فرصة للبشرية": هل تتفوق نماذج الذكاء الاصطناعي على الخبرة البشرية المتخصصة؟

في ظل التطورات المتسارعة للذكاء الاصطناعي، أصبحت الاختبارات المعيارية التقليدية التي صُممت لقياس القدرات البشرية غير كافية لتقييم الأداء المتقدم لهذه الأنظمة. لمواجهة هذا التحدي، اجتمع ما يقرب من ألف باحث عالمي لابتكار "امتحان آخر فرصة للبشرية" (Humanity’s Last Exam - HLE). يهدف هذا الامتحان الضخم، الذي يضم 2500 سؤال، إلى تغطية مجالات معرفية متخصصة وعميقة تتجاوز بكثير قدرات الذكاء الاصطناعي الحالية، مما يؤكد على أهمية الخبرة البشرية المتجذرة والفريدة.

تم تصميم كل سؤال في هذا الامتحان بعناية فائقة ليكون له إجابة واحدة صحيحة وقابلة للتحقق، يصعب العثور عليها عبر البحث السريع على الإنترنت. الهدف ليس إرباك البشر، بل الكشف المنهجي عن أوجه القصور الحالية في أنظمة الذكاء الاصطناعي. تظهر النتائج الأولية فشلاً ذريعاً لنماذج الذكاء الاصطناعي الرائدة مثل GPT-4o و Claude 3.5، مما يكشف عن فجوة كبيرة بين قدرة الآلة على التعرف على الأنماط والخبرة البشرية العميقة والمتجذرة.

تحدي المعرفة المتخصصة: "امتحان آخر فرصة للبشرية"

يمثل "امتحان آخر فرصة للبشرية" (HLE) معياراً جديداً لقياس المعرفة على المستوى الخبير، وهو مصمم ليكون في حدود قدرات الذكاء الاصطناعي الأكثر تقدماً في العالم حالياً. يتضمن هذا الامتحان الفريد 2500 سؤال موزعة على مجالات واسعة تشمل الرياضيات، العلوم الإنسانية، العلوم الطبيعية، اللغات القديمة، بالإضافة إلى مجالات فرعية شديدة التخصص. وقد تم تأليف الأسئلة ومراجعتها من قبل خبراء عالميين في مجالاتهم لضمان دقتها وشموليتها، مما يجعلها اختباراً قوياً لقدرات الذكاء الاصطناعي.

يُسلط الامتحان الضوء على الفجوة الواضحة بين القدرة على معالجة البيانات بكميات هائلة وبين امتلاك المعرفة المتخصصة العميقة التي تتطلب سنوات من الدراسة والخبرة. على سبيل المثال، تشمل الأسئلة ترجمة نقوش باللغة البلميرية القديمة، وتحديد هياكل دقيقة في تشريح الطيور، وتحليل خصائص النطق في اللغة العبرية التوراتية. إن التركيز على أسئلة ذات إجابات فردية لا يمكن العثور عليها بسهولة عبر البحث الآني يمنع نماذج الذكاء الاصطناعي من الاعتماد على استرجاع المعلومات البسيطة.

جهود عالمية لقياس حدود الذكاء الاصطناعي

كان الدافع وراء إنشاء HLE هو إدراك الباحثين بأن الاختبارات المعيارية الشائعة، مثل اختبار MMLU (Massive Multitask Language Understanding)، لم تعد كافية لتمييز قدرات الذكاء الاصطناعي المتقدمة. بدلاً من ذلك، يهدف HLE إلى توفير تقييم دقيق وشامل يوضح ما يمكن للذكاء الاصطناعي القيام به وما يعجز عنه حالياً. وقد تم اختبار كل سؤال بعناية مقابل نماذج الذكاء الاصطناعي الرائدة، وإذا تمكن أي نظام من الإجابة بشكل صحيح، يتم حذف السؤال واستبداله.

تُظهر النتائج الأولية لهذه الجهود أن حتى النماذج الأكثر تقدماً تكافح لتحقيق نتائج مرضية. فقد سجل نموذج GPT-4o نسبة 2.7% فقط، بينما حقق Claude 3.5 Sonnet نسبة 4.1%، ونموذج o1 من OpenAI وصل إلى 8%. أما النماذج الأكثر تطوراً مثل Gemini 3.1 Pro و Claude Opus 4.6، فقد تمكنت بصعوبة من الوصول إلى حوالي 40% إلى 50% من الدقة. هذه الأرقام تكشف عن أن فهم الآلة العميق للسياق والخبرة المتخصصة لا يزال بعيد المنال.

أهمية معيار جديد لتقييم الذكاء الاصطناعي

لا تقتصر مشكلة تجاوز الذكاء الاصطناعي للمعايير التقليدية على الجانب الأكاديمي فقط، بل تمتد لتشمل صانعي السياسات والمطورين والمستخدمين الذين قد يسيئون فهم القدرات الفعلية لأنظمة الذكاء الاصطناعي. توفر المعايير القوية أساساً لقياس التقدم وتحديد المخاطر المحتملة. يؤكد هذا البحث على أن التفوق في اختبارات مصممة للبشر لا يعني بالضرورة امتلاك "ذكاء" بالمعنى البشري، بل قد يعني مجرد أداء جيد في مجموعة من المهام التي صُممت لنوع مختلف تماماً من المتعلمين.

ووفقاً للدكتور تونغ نغوين، الأستاذ المساعد في قسم علوم وهندسة الحاسوب بجامعة تكساس إيه آند إم، والذي ساهم في تأليف وتحسين 73 سؤالاً في HLE، فإن "المعايير توفر الأساس لقياس التقدم وتحديد المخاطر". إن القدرة على تقييم الذكاء الاصطناعي بدقة تساعد في بناء تقنيات أكثر أماناً وموثوقية، وتؤكد على القيمة المستمرة للخبرة البشرية.

HLE: أداة وليس تهديداً

على الرغم من الاسم الذي قد يبدو مثيراً للقلق، إلا أن "امتحان آخر فرصة للبشرية" ليس المقصود به الإشارة إلى نهاية الأهمية البشرية. بدلاً من ذلك، يسلط الضوء على حجم المعرفة الذي لا يزال فريداً للبشر، ومدى المسافة التي لا تزال أنظمة الذكاء الاصطناعي بحاجة لقطعها. يؤكد نغوين أن "هذا ليس سباقاً ضد الذكاء الاصطناعي، بل هو طريقة لفهم نقاط القوة والضعف لدى هذه الأنظمة. وهذا الفهم يساعدنا على بناء تقنيات أكثر أماناً وموثوقية، والأهم من ذلك، يذكرنا لماذا لا تزال الخبرة البشرية مهمة".

يهدف HLE إلى العمل كمعيار شفاف طويل الأجل لتقييم أنظمة الذكاء الاصطناعي المتقدمة. ولتحقيق هذه الغاية، قامت الجهة المنظمة بإتاحة جزء من الأسئلة للجمهور، مع الاحتفاظ بالجزء الأكبر منها سراً لمنع نماذج الذكاء الاصطناعي من حفظ الإجابات. يظل "امتحان آخر فرصة للبشرية" حالياً واحداً من أوضح التقييمات للفجوة بين الذكاء الاصطناعي والذكاء البشري، وهي فجوة لا تزال واسعة على الرغم من التقدم التكنولوجي السريع.

بحث على نطاق واسع

أشاد نغوين بالمشروع الضخم الذي يعكس أهمية الجهود البحثية متعددة التخصصات والدولية. فقد شارك في هذا المشروع خبراء من جميع التخصصات تقريباً، وليس فقط علماء الكمبيوتر، بل شمل مؤرخين، فيزيائيين، لغويين، وباحثين طبيين. هذا التنوع هو ما يكشف عن نقاط الضعف في أنظمة الذكاء الاصطناعي الحالية، وهو دليل على قوة التعاون البشري.

الأسئلة الشائعة

لماذا سُمي "امتحان آخر فرصة للبشرية"؟

الاسم يحمل طابعاً ساخراً، لكنه يمثل فكرة أن هذا هو الاختبار النهائي للذكاء الاصطناعي. إذا تمكن الذكاء الاصطناعي من اجتياز هذا الامتحان، فهذا يعني أنه وصل إلى مستوى من الخبرة البشرية المتخصصة كان يُعتقد سابقاً أنه مستحيل للآلة.

إذا كان الذكاء الاصطناعي ذكياً لهذه الدرجة، فلماذا يفشل؟

الذكاء الاصطناعي بارع في التعرف على الأنماط وتلخيص البيانات المعروفة، ولكنه يواجه صعوبة في السياقات المتخصصة العميقة. يطرح HLE أسئلة تتطلب سنوات من الدراسة المتخصصة، مثل نطق لغات قديمة محددة أو ميزات تشريحية نادرة، حيث لا يعمل "التخمين" بناءً على بيانات الإنترنت الشائعة.

هل يمكن لشخص عادي اجتياز هذا الاختبار؟

ليس بالكامل! لا يمكن لأي إنسان بمفرده اجتياز الامتحان بأكمله لأنه يغطي كل شيء من الفيزياء النووية إلى التاريخ القديم. ومع ذلك، فإن خبيراً بشرياً في مجال معين سيجيب بسهولة على الأسئلة في تخصصه، بينما يفشل الذكاء الاصطناعي في جميع الفئات تقريباً.