
كاميرات المراقبة بالذكاء الاصطناعي .. في العام الماضي. حلَّلت هيئة النقل في لندن كاميرات بيانات مراقبة لدائرة تلفزيونية مغلقة مزودة بالذكاء الاصطناعي، في محطة مترو ويلسدن غرين. حيث تم تشغيل البث عبر أنظمة آلية، من أكتوبر 2022 إلى سبتمبر 2023.
وكان الهدف هو الكشف عن التهرُّب من دفع أجرة النقل. والحركات والإيماءات العدوانية، ومخاطر السلامة. لكن النظام الذي أصدر أكثر من 44000 تنبيه – لم يكن مصيباً في الرصد حيث ظهر أن نصف التنبيهات تقريباً كانت إما خاطئة أو مضلّلة.
كما كتب كولاول سامويل أديبايو. فقد أدَّت حالات تعقب الأطفال لآبائهم عبر حواجز التذاكر. إلى إطلاق إنذارات حول التهرُّب من دفع الأجرة. كما واجهت الخوارزميات صعوبة في التمييز بين الدراجات الهوائية القابلة للطي والدراجات العادية.
رصد فوري.. مقابل خلل عميق
كان التأثير فورياً؛ إذ واجه الموظفون أكثر من 19000 تنبيه فوري تتطلب مراجعة بشرية. لا بسبب وجود مشكلات حقيقية، ولكن لأن الذكاء الاصطناعي لم يستطع التمييز بين المظهر والقصد. إذ إن النظام التقني وبتدريبه على رصد الحركة والوضعية، لا على السياق. كشف عن خلل أعمق في جوهر كثير من أدوات الذكاء الاصطناعي اليوم.
سلوك بشري عادي يتحول إلى تهديد
ومع انتشار الذكاء الاصطناعي في الحياة اليومية – من المتاجر إلى المطارات – فإن عجزه عن تفسير سبب تحركنا، بدلاً من مجرد كيفية تحركنا، يُهدد بتحويل السلوك البشري العادي إلى إنذارات كاذبة.
حدود ما يمكن للكاميرات “رؤيته”
تتفوق معظم تقنيات الذكاء الاصطناعي في رصد الأنماط، مثل: تجاوز الحدود، ودخول منطقة معينة، وكسر الروتين. لكن الفروق الدقيقة والغموض والاختلاف الثقافي تُعيقها. يقول توان لي آنه، الرئيس التنفيذي لشركة “Advanced Technology Innovations ATIN” ومقرها فيتنام:”في البيئات الديناميكية أو المزدحمة، يتمثل أحد أكبر التحديات في حجب الأشخاص أو الأشياء عن الرؤية… فعندما يتداخل الأشخاص أو يتحركون بسرعة في الإضاءة الخافتة، قد يدمجهم النظام في شخص واحد، أو الأسوأ من ذلك: أن يُكررهم. ومن السهل على الكاميرات أن تُغفل الأحداث الرئيسية أو تُخطئ في تصنيف ما يحدث بالكامل”.
الذكاء الاصطناعي يرى الفعل لا السبب
لهذا النقص في السياق عواقب وخيمة؛ فقد يكون الشخص الذي يركض يمارس الرياضة، أو يهرب من الخطر، أو يطارد حافلة، لكن الذكاء الاصطناعي لا يرى إلا الفعل نفسه، لا السبب. تعالج معظم الأنظمة مقاطع بصرية موجزة دون مراعاة الوقت، أو ديناميكيات الحشود، أو الصوت. ويشير لي آنه إلى أنها “يمكنها تحديد ما يحدث “مثل شخص يركض”، ولكن دون تحديد السبب”. ويضيف:” هذا النقص في التفكير السببي يخلق نقاطاً عمياء”.
في الممارسة العملية، أدى هذا إلى خلط كاميرات المتاجر بين حركات الوصول والسرقة، وإلى ممارسة التمييز في أنظمة النقل العام للركاب ذوي البشرة الملونة بشكل غير متناسب، وخلط أجهزة مراقبة الرعاية الصحية بين الإيماءات الروتينية وعلامات الاستغاثة، ما يؤدي أحياناً إلى تفويت الالتفات إلى حالات طوارئ حقيقية.
يجادل لي آنه بأن الحل يكمن في تدريب الذكاء الاصطناعي على رؤية المشهد بأكمله. ويضيف:” عندما تجمع مصادر بيانات متعددة وتسمح للنموذج بالتعلم من الأنماط بمرور الوقت، تقترب من نظام يفهم النية… هنا يمكن لهذه التقنية أن تتوقف عن ارتكاب الأخطاء نفسها وتبدأ في أن تصبح مفيدة حقاً”.
كاميرات المراقبة بالذكاء الاصطناعي .. أنماط زائفة وعواقب حقيقية
تعكس هذه المشكلة ما يُطلِق عليه ساجي بن موشيه، الرئيس التنفيذي لشركة “لومانا”:” فخ مطابقة الأنماط”. فالذكاء الاصطناعي المُدرّب على تصنيف البكسلات “نقاط الصورة” غالباً ما يرصد تفاصيل سطحية دون أي معنى حقيقي.
ويضيف أحد الأمثلة الكلاسيكية على ذلك جاء من مشاريع التعرف على الصور العسكرية؛ عندما درب الخبراء النظام على اكتشاف الدبابات باستخدام صور التُقِطت صدفة بالقرب من الأشجار. وما حدث هو أن النظام تعلم اكتشاف الأشجار، وليس الدبابات. وقد نجح النظام بشكل رائع في الاختبار، لكنه فشل في الميدان”. وتصمم شركة “لومانا” ذكاءً اصطناعياً للفيديو لتجنب هذه المشكلات. وتتتبع “نماذج التعلُّم المستمر” الخاصة بها الحركة بمرور الوقت وفي السياق.
فرق شاسع بين الرؤية… والفهم
ويقول بن موشيه:” هناك فرق شاسع بين الرؤية والفهم”. يستطيع الذكاء الاصطناعي حالياً اكتشاف هوية الشخص، لكنه لا يعرف ما إذا كان في حالة من الضيق أو التشتت أو ينتظر وصول سيارة. وعندما تعمل الأنظمة بناءً على هذه الرؤية غير المكتملة، فإننا نخاطر بحالة “أتمتة سوء الفهم” على نطاق واسع. تبلغ المخاطر ذروتها في المدارس والمستشفيات والملاعب الرياضية، وهي أماكن تعتمد فيها السلامة على التصنيف الدقيق، وقد تؤدي النتائج الخاطئة إلى تفاقم المشكلة أو إغفال التهديدات.
فهم القواعد الفيزيائية
لماذا يحتاج الذكاء الاصطناعي إلى الفيزياء، وليس فقط البكسلات؟ يجادل الخبراء بأن الفهم الحقيقي يتطلب أكثر من مجرد رؤية ثنائية الأبعاد. يجب أن يتعلم الذكاء الاصطناعي نفس القواعد الفيزيائية والمكانية التي يستوعبها البشر في طفولتهم: الجاذبية، والحركة، والسبب، والنتيجة. يقول بن موشيه:” أنظمة رؤية الذكاء الاصطناعي اليوم لا تمتلك حساً مدمجاً بالمنطق الفيزيائي؛ فالطفل الصغير يعرف أنه إذا دفعت كرة، فإنها تتدحرج. أما نموذج الذكاء الاصطناعي فلا يعرف ذلك، إلا إذا شاهد ملايين مقاطع الفيديو للكرات وهي تتدحرج بطرق مماثلة”. لذا تتجه جهود الصناعة في هذا الاتجاه؛ إذ تبني “لومانا” نماذج منظمة للأجسام والقوى والمشاهد، بينما تستكشف “ATIN” الرؤية القائمة على المحولات والرسوم البيانية للمشاهد ثلاثية الأبعاد لالتقاط العمق والسياق في العلاقات. لكن التفسير عالي الدقة والفوري يتطلب قوة معالجة هائلة، لا يمكن تفسيره بسهولة.
بناء ذكاء اصطناعي “يفهم”
مع تسابق الشركات لأتمتة المساحات المادية، تتضح المخاطر: ما لم يتعلم الذكاء الاصطناعي السياق، فإننا نخاطر بتحويل نقاط ضعف البشر إلى نقاط ضعف آلية.
ربط الحركة بالمعنى والقصد
ويتفق بن موشيه ولي آنه على أن مستقبل الذكاء الاصطناعي لن يعتمد على كاميرات أكثر دقة أو تصنيفات أفضل، بل على التفكير المنطقي – ربط الحركة بالمعنى والوقت بالقصد. إذا كان للذكاء الاصطناعي أن يتعايش مع البشر، فعليه أولاً أن يفهمنا ويفهم عالمنا. ويحدث التقدُّم هماً، بعدما طُورت نماذج تدمج الوقت والصوت والإشارات البيئية. لكن الثقة الحقيقية ستعتمد على أنظمة ليست أكثر ذكاءً فحسب، بل أيضاً شفافة وقابلة للتفسير ومتوافقة مع سمات التعقيد البشري. عندما يأتي هذا التحول، لن يقتصر دور الذكاء الاصطناعي على التعرف على الوجه أو تتبع الحركة، بل سيستوعب السياق الكامن وراءها. وهذا يفتح الباب أمام التكنولوجيا التي لا تراقبنا فحسب، بل تعمل معنا من أجل إنشاء مساحات عامة أكثر أماناً وعدالة واستجابة.