تكنولوجيا

الكشف عن مبالغة في تقدير قدرات الذكاء الاصطناعي بسبب اختبارات غير دقيقة

كشفت دراسة حديثة أن الأساليب المعتمدة في تقييم أداء أنظمة الذكاء الاصطناعي، قد تكون مضللة ومبالغا في دقتها، مما يجعل الصورة المتداولة حول هذه القدرات أكثر تفاؤلا مما هي عليه في الواقع، حيث فحص فريق من الباحثين في معهد أكسفورد للإنترنت، بالتعاون مع أكثر من 30 خبيرًا من مؤسسات علمية مختلفة نحو 445 اختبارًا يعتمد عليها لتقدير كفاءة الذكاء الاصطناعي في مجالات متعددة، وخلصت النتائج إلى أن نسبة كبيرة من هذه الاختبارات تفتقر إلى الدقة العلمية، وتعيد استخدام بيانات وأساليب تقييم قديمة مما يؤثر في موثوقية نتائجها، إذ بيّنت الدراسة أن ما يُعرف بمعايير الأداء المرجعية التي يستند إليها المطورون والباحثون لقياس قدرات النماذج التقنية لا تعكس بدقة ما يُفترض أن تقيسه فعلا، بل تقدم صورة مجتزأة ومحدودة عن الكفاءة الحقيقية للأنظمة الذكية.

 

 

ثغرات منهجية تقلل من مصداقية النتائج

يرى الباحث “آدم مهدي”، وهو أحد المؤلفين الرئيسيين للدراسة وباحث أول في معهد “أكسفورد” للإنترنت، أن الكثير من هذه المعايير تُستخدم لقياس مهام لا تعبّر بدقة عن القدرات التي يُراد اختبارها، موضحًا أن بعض التجارب تطلب من النماذج أداء مهام ظاهرها بسيط، لكنها في حقيقتها لا ترتبط بالقدرة الأساسية المستهدفة.

فعندما يُختبر نموذج في مجال لغوي معين، مثل اللغة الروسية أو العربية مثلًا، فإن التقييم لا يعتمد على محادثات واقعية أو مواقف تواصلية حقيقية بل على مجموعة محدودة من الأسئلة والمهام المكررة، وهو ما يؤدي إلى نتائج مشوهة لا تعكس مهارة النموذج في التعامل مع اللغة في مواقف متنوعة، كما أن قرابة نصف الاختبارات التي تم تحليلها فشلت في تحديد المفاهيم التي تزعم قياسها، وهو ما يثير شكوكًا كبيرة حول قيمتها العلمية وجدواها البحثية، ويشير الباحثون إلى أن بعض هذه الاختبارات تستخدم بيانات من مصادر سابقة دون تعديل أو تحديث، مما يجعلها غير قادرة على تمثيل التطور الفعلي في قدرات الذكاء الاصطناعي.

واتفق معه الباحث “أندرو بين”، وهو من المشاركين الرئيسيين في إعداد الدراسة، على أن هذه المعايير تمنح ثقة مفرطة في نتائجها رغم هشاشتها المنهجية، مؤكدا أن المجتمع العلمي بحاجة إلى مراجعة عميقة لطريقة بناء هذه المقاييس وتحليلها، فالاعتماد المفرط على أرقام الأداء دون النظر إلى طريقة التقييم يجعل التقدم الظاهر في قدرات النماذج التقنية أقرب إلى الوهم الإحصائي منه إلى الواقع العملي، وأضاف أن بعض المعايير تكتفي بتقييم جزئيات صغيرة من المهارة الذهنية أو اللغوية ثم تُعمم نتائجها لتشمل قدرات شاملة كالتفكير المجرد أو التعلم المستمر، مما يؤدي إلى تضخيم صورة الكفاءة الذكائية لدى الأنظمة الاصطناعية دون مبرر علمي كاف.

 

توصيات لإصلاح الاختبارات وتعزيز الشفافية

قدمت الدراسة في ختامها 8 توصيات رئيسية تهدف إلى إصلاح منظومة التقييم وتحسين موثوقيتها، إذ دعا الباحثون إلى ضرورة تحديد نطاق الاختبار بدقة قبل تطبيقه، وتوضيح الظاهرة التي يُراد قياسها بعبارات محددة تجنبًا للخلط بين المفاهيم، كما شددوا على أهمية بناء مجموعات من المهام التي تمثل القدرات الإجمالية المراد تقييمها بدل الاكتفاء بعدد محدود من التجارب الجزئية، وأوصوا باستخدام التحليل الإحصائي المقارن بين النماذج لتفادي التحيزات التي قد تنشأ عن اختلاف نوعية الأسئلة أو طبيعة البيانات.

وأكد الباحث “آدم مهدي”، أن الهدف ليس تقويض الثقة بالذكاء الاصطناعي وإنما إعادة التوازن في فهم ما يقدمه فعلًا، مشيرًا إلى أن بعض الاختبارات تبدو ناجحة لأنها تقيس ما هو أسهل وليس ما هو أعمق، وهو ما يؤدي إلى استنتاجات غير دقيقة حول مستوى التطور الحقيقي في هذا المجال.

كما استندت الدراسة إلى بحوث سابقة كانت قد نبهت إلى وجود مشكلات مشابهة في المعايير المرجعية، حيث أشار باحثون في دراسات سابقة إلى أن كثيرًا من النماذج تحقق نتائج مرتفعة في اختبارات محددة بسبب التكرار أو الحفظ الآلي وليس بسبب الفهم أو التحليل المنطقي، وفي العام الماضي دعا فريق من المتخصصين في أحد المراكز البحثية إلى تعزيز الاختبارات الإحصائية للتحقق من أن الأداء العالي للنموذج لا يعود إلى الحظ أو التكرار، بل إلى قدرة حقيقية قابلة للقياس، وتخلص الورقة البحثية الجديدة إلى أن التحدي الأكبر أمام الباحثين ليس تطوير الذكاء الاصطناعي فحسب بل تطوير أدوات قياسه، لأن غياب الدقة في التقييم يعني أننا لا نعرف على وجه اليقين مدى ما وصل إليه هذا الذكاء من نضج أو قصور، وأن الإيمان الأعمى بالأرقام دون فهم خلفياتها قد يعيق تقدم المجال أكثر مما يخدمه.

تؤكد الدراسة أن العالم العلمي والتقني بحاجة ماسة إلى شفافية أكبر في تقييم الذكاء الاصطناعي، لأن التقدم الحقيقي لا يُقاس بالنتائج الظاهرة فقط بل بالدقة المنهجية التي تُبنى عليها، فاختبار ضعيف يعني بالضرورة نتيجة ضعيفة مهما بدت مرتفعة، واليقين العلمي لا يتحقق إلا عندما تكون أدوات القياس على قدر من الصرامة يوازي الطموح الذي يحمله هذا المجال المتسارع نحو المستقبل.

 ياقوت زهرة القدس بن عبد الله 

مقالات ذات صلة

زر الذهاب إلى الأعلى