
كشفت شركة”Thinking Machines Lab”، عن دراسة بحثية لنظام جديد يحمل اسم”Interaction Models”، يهدف إلى تغيير طريقة تفاعل البشر مع أنظمة الذكاء الاصطناعي، من خلال الانتقال من نمط الأوامر النصية التقليدية إلى تجربة تواصل حي ومتزامن تشبه المحادثات البشرية الطبيعية.
يقوم النظام الجديد، على تمكين الذكاء الاصطناعي من معالجة الصوت والفيديو والنصوص في وقت واحد، بما يسمح له بالاستماع والرؤية والتحدث والتفاعل بصورة متزامنة، بدلاً من انتظار انتهاء المستخدم من حديثه أو كتابته قبل بدء الاستجابة.
وترى الشركة المنتجة، أن نماذج الذكاء الاصطناعي الحالية، رغم تطورها الكبير في الفهم والتوليد، ما تزال محكومة بأسلوب تفاعلي جامد يقوم على تبادل الأدوار؛ إذ ينتظر المستخدم رد النموذج كاملاً، بينما ينتظر النموذج بدوره اكتمال مدخلات المستخدم قبل أن يبدأ بالإجابة.
تصف الشركة هذا النمط بأنه يشكل “عنق زجاجة تفاعلياً”، لأنه يحوّل الحوار إلى سلسلة من الأوامر المنفصلة، بدلاً من محادثة حية تسمح بالتعقيب والمقاطعة والتصحيح وتعديل المسار لحظة بلحظة.
وبحسب الدراسة، تركز معظم شركات الذكاء الاصطناعي حالياً على تطوير ما يُعرف بالنماذج الوكيلة أو”Agentic Models”، وهي أنظمة قادرة على تنفيذ المهام بصورة ذاتية ومستقلة، بينما يُنظر إلى التفاعل البشري في كثير من الأحيان على أنه مجرد واجهة استخدام.
غير أن الشركة،ترى أن أغلب الأعمال الواقعية لا يمكن إنجازها بمجرد إعطاء التعليمات من البداية ثم ترك النموذج يعمل منفرداً، إذ يحتاج المستخدم غالباً إلى البقاء داخل دائرة التفاعل، لتوضيح المقصود، وتقديم الملاحظات، وتصحيح الأخطاء، وتعديل النتائج أثناء التنفيذ.
ومن هذا المنطلق، تعتبر الشركة أن مستقبل الذكاء الاصطناعي لن يعتمد فقط على جعل النماذج أكثر قدرة على التفكير، بل أيضاً على جعلها أكثر قدرة على التعاون الطبيعي والمرن مع الإنسان.
وتوضح الدراسة أن البشر لا يتواصلون عبر رسائل منفصلة ومنظمة بشكل صارم، بل عبر محادثات تتضمن المقاطعة، والتردد، والتعقيب، والتصحيح الفوري، إضافة إلى الإشارات الصوتية والبصرية. لذلك صُمم النظام الجديد ليحاكي هذه الطبيعة، بحيث يستطيع الذكاء الاصطناعي التفاعل مع المستخدم في الوقت نفسه الذي يستقبل فيه المعلومات.
كما يدعم النموذج التحدث والاستماع في الوقت نفسه، ما يفتح الباب أمام تطبيقات مثل الترجمة الفورية الحية، وتصحيح النطق أثناء الكلام، والتعليق المباشر على محتوى مرئي، أو متابعة إشارات بصرية خلال الحوار.
وتؤكد الشركة أن هذه القدرات ليست إضافات خارجية ملحقة بالنظام، بل جزء مدمج داخل بنية النموذج نفسه، ما يعني أن جودة التفاعل يمكن أن تتحسن تلقائياً مع تطور قدراته الأساسية.
خديجة بن عشور



