
ما زالت الهلوسة في أنظمة الذكاء الاصطناعي تثير جدلا واسعا بين الباحثين. إذ يقصد بها تلك الإجابات التي تبدو منطقية في ظاهرها. لكنها في الحقيقة غير صحيحة. وهو ما يجعل الثقة في هذه النماذج موضع تساؤل دائم فرغم التطور الكبير الذي شهدته أنظمة المحادثة واللغة. إلا أن الأخطاء المضللة لا تزال جزء من أدائها اليومي.
جذور المشكلة في أسلوب التدريب
توضح ورقة بحثية حديثة أن سببا جوهريا لبقاء هذه الظاهرة هو طبيعة التدريب الأولى. التي تعتمد على جعل النموذج يتنبأ بالكلمة التالية بشكل صحيح دون أن تكون هناك إشارات واضحة تميز بين الصحيح والخاطئ.
فالنظام يتعرض لعدد هائل من الأمثلة المصاغة بلغة سليمة لكنه لا يرى نماذج سلبية أو بدائل غير دقيقة. لذلك يتقن الشكل الخارجي للجملة، لكنه قد يعجز عن التحقق من صحة المعلومة.
من الأمثلة التي ساقها الباحثون أنهم طرحوا على أحد أنظمة المحادثة سؤالاً مباشراً عن عنوان أطروحة أكاديمية لباحث مشارك. فجاءت الإجابة في 3 صيغ مختلفة وجميعها كانت خاطئة.
ثم سألوا عن تاريخ ميلاده فجاءت أيضاً 3 تواريخ متباينة وكلها غير صحيحة. هذه الأمثلة تكشف أن النموذج يتحدث بثقة كبيرة حتى عندما يفتقر إلى المعلومة الدقيقة.
وتشير الورقة إلى أن بعض أنواع الأخطاء يمكن للنظام أن يتجاوزها مع الوقت. فالهفوات في التهجئة أو علامات الترقيم تختفي مع زيادة حجم البيانات لأن أنماطها متكررة وواضحة، أما الحقائق النادرة مثل تفاصيل شخصية عن باحث أو حادثة محدودة فهي لا تتكرر بما يكفي ليتمكن النموذج من التنبؤ بها بدقة لذلك تميل النتيجة إلى التخمين أكثر من المعرفة.
الهلوسة في الذكاء الاصطناعي .. خلل في طرق التقييم
المثير في الدراسة، أن الباحثين لا يركزون فقط على التدريب بل يرون أن طريقة تقييم هذه النماذج تشجع على الأخطاء، فالأساليب المتبعة اليوم تعتمد غالباً على قياس نسبة الإجابات الصحيحة، دون الأخذ في الاعتبار أن بعض الإجابات الخاطئة تكون مغلفة بثقة زائدة وهذا يشبه اختبارات الاختيار من متعدد، حيث قد يربح الطالب علامة كاملة من خلال تخمين محظوظ بينما الامتناع عن الإجابة يمنحه صفراً.
هذا النوع من التقييم يدفع النماذج إلى المخاطرة والتخمين عوضا عن التصريح بعدم المعرفة، وهو ما يفسر لماذا يبدو الذكاء الاصطناعي واثقاً حتى في أخطائه، لذلك يقترح الباحثون تعديل آلية التقييم بحيث يتم تقليل المكافأة على التخمين الخاطئ مقابل منح درجات جزئية في حال أظهر النظام قدراً من التردد أو صرّح بعدم اليقين.
الفكرة تشبه بعض الاختبارات الدراسية التي تفرض خصماعلى الإجابة الخاطئة، وتشجع على ترك السؤال بلا إجابة إذا لم يكن الطالب متأكدا، فبهذا يصبح الهدف ليس فقط مطابقة الإجابة الصحيحة، وإنما أيضا تعلم متى يجب الاعتراف بالجهل، وهذه السمة لو طُبقت على النماذج اللغوية ستدفعها إلى تبني سلوك أكثر واقعية وأقرب إلى طريقة تفكير البشر.
الهلوسة في الذكاء الاصطناعي .. نحو تقييم جديد يقلل من التخمين
الدراسة توصي بأن لا يقتصر الأمر على إدخال بعض التجارب المحدودة، بل يجب إعادة صياغة مقاييس الأداء المعتمدة على نطاق واسع، إذ إن لوحات النتائج العالمية التي تكتفي بقياس الدقة تعطي الانطباع بأن النموذج الأفضل هو من يحقق أكبر عدد من الإجابات الصحيحة، حتى لو كانت مصحوبة بأخطاء واثقة، وهذه المقاييس تدفع الشركات إلى تحسين القدرة على التخمين بدلاً من تحسين القدرة على قول لا أعرف.
ولهذا يدعو الباحثون إلى مقاييس جديدة تفرّق بين الإجابة غير الدقيقة والإجابة المترددة، بحيث تكون العقوبة على الخطأ الموثوق أشد من العقوبة على الامتناع عن الإجابة بهذه الطريقة يتعلم النظام أن يوازن بين الجرأة والحيطة، فلا يندفع لتقديم كل إجابة وكأنها حقيقة مطلقة بل يتدرج في إظهار ثقته تبعاً لقوة الدليل المتوفر لديه.
إن إدخال هذا النوع من التقييم لا يعني القضاء الكامل على الهلوسة، فهي ستظل جزء من طبيعة النماذج القائمة على الإحصاء والاحتمالات، لكن الفرق سيكون في مدى شيوع هذه الأخطاء وفي قدرتنا على التنبؤ بها وضبط أثرها على المستخدم، فالمشكلة ليست فقط أن الروبوت يخطئ، بل أنه يخطئ بثقة عالية وهو ما يجعل المستخدمين أكثر عرضة لتصديق المعلومة الخاطئة.