تكنولوجيا

مخاطر الذكاء الاصطناعي عند تصغير النماذج وحلول جديدة للباحثين

مخاطر الذكاء الاصطناعي .. مع التوسع السريع في استخدام تقنيات الذكاء الاصطناعي، يسعى الباحثون إلى جعل هذه النماذج أكثر توافقًا مع الأجهزة الصغيرة، مثل الهواتف والسيارات وأدوات العمل المحمولة، غير أن هذه الخطوة تطرح تحديات أمنية معقدة.


 

حيث إن تكييف النماذج الكبيرة مع بيئات منخفضة الطاقة قد يؤدي إلى فقدان جزء من الحماية المدمجة فيها، وهو ما يفتح المجال أمام احتمالات إنتاج مخرجات ضارة أو خطرة، هذا ما دفع فريقًا من الباحثين في جامعة كاليفورنيا ريفرسايد إلى دراسة هذه الإشكالية بتفصيل أكبر، حيث ركزوا على ما يحدث حين يتم تعديل نقطة الخروج في النموذج من موضعها الأصلي.

 

مخاطر الذكاء الاصطناعي .. ضعف الحواجز عند تغيير الطبقات

أظهرت التجارب أن تغيير نقطة الخروج يؤدي إلى إضعاف الحواجز الأمنية التي صممت أصلًا لمنع النماذج من توليد استجابات مؤذية، فحين يتم تجاوز بعض الطبقات يصبح النموذج أسرع وأكثر كفاءة من حيث الاستدلال، لكنه يفقد في المقابل القدرة على حجب الطلبات غير الآمنة، الأمر الذي يجعل النظام قادرًا على تقديم إجابات لا ينبغي أن يقدمها.

وقد وضح أستاذ الهندسة الكهربائية والحاسوبية في الجامعة “أميت روي تشودري”، أن هذه الطبقات المتخطاة ضرورية لحماية المخرجات، وإذا تم الاستغناء عنها فإن النموذج قد ينزلق نحو تقديم محتويات حساسة مثل تعليمات تقنية خطرة، ومن هنا برزت الحاجة إلى البحث عن وسيلة تبقي على الأمان حتى عند تقليص البنية.

 

إعادة بناء الفهم الداخلي للنموذج

الحل الذي قدمه الباحثون لم يكن قائمًا على إضافة مرشحات خارجية أو طبقات حماية لاحقة، بل اعتمد على إعادة تدريب البنية الداخلية للنموذج ذاته بحيث يحتفظ بآلية تمييز المواد غير الآمنة ورفضها حتى عند تقليصه.

وقد أوضح “ساكيث باتشو”، وهو طالب دراسات عليا شارك في قيادة هذه الدراسة أن الهدف كان ضمان أن النموذج لا ينسى كيف يتصرف بطريقة آمنة رغم تعديل حجمه، ولإثبات فعالية هذا النهج اختبر الفريق تقنيتهم على نموذج لغوي بصري، وعندما تم نقل نقطة الخروج قبل موعدها استجاب النظام لمطالبات ضارة من بينها تعليمات دقيقة لصنع المتفجرات، لكن بعد إعادة التدريب أصبح النموذج المصغر يرفض باستمرار تقديم مثل هذه الإجابات، وهو ما يثبت أن تغيير الفهم الداخلي للنظام يمنحه القدرة على الالتزام بالسلوك الآمن بشكل افتراضي، وقد وصف فريق البحث هذه المقاربة بأنها بمثابة اختراق خيري يسبق استغلال الثغرات، ويجعل النماذج أكثر صلابة أمام محاولات التلاعب بمخرجاتها.

بن عبد الله ياقوت زهرة القدس

مقالات ذات صلة

زر الذهاب إلى الأعلى