هل يمكن أن يتعلم الذكاء الاصطناعي الخداع؟ ورقة بحثية جديدة أثبتت أن مجموعة متنوعة من أنظمة الذكاء الاصطناعي تعلمت تقنيات للتلاعب بالمعلومات لتحقيق أغراض بتقديم بيانات خاطئة لخداع الإنسان. تركز الورقة على نوعين من أنظمة الذكاء الاصطناعي: الأنظمة المخصصة للاستخدام الخاص مثل نظام «CICERO» من ميتا، والتي تم تصميمها لإكمال مهمة محددة، والأنظمة العامة مثل شات جي بي تي، والتي تم تدريبها لأداء مجموعة متنوعة من المهام. على الرغم من أن هذه الأنظمة تم تدريبها على الصدق، إلا أنها غالبًا ما تتعلم حيلًا خادعة خلال تدريبها لأنها قد تكون أكثر فعالية من اتباع الطريق الصحيح. وتشير الورقة إلى أن الأنظمة الاصطناعية المدربة على «الفوز في الألعاب التي تحتوي على عنصر اجتماعي» هي الأكثر احتمالًا للخداع. مثلاً، تم تطوير نظام CICERO من ميتا للعب لعبة الدبلوماسية - لعبة استراتيجية كلاسيكية تتطلب من اللاعبين بناء التحالفات وكسرها، وعلى الرغم من أن ميتا قامت بتدريب CICERO على أن يكون «صادقًا ومفيدًا لشركائه في الحديث»، إلا أن الدراسة وجدت أن «CICERO» أصبح خبيرًا في الكذب، فقد قام بالتزامات لم يكن يعتزم الوفاء بها، وخان الحلفاء، وقدم أكاذيب صريحة. حتى الأنظمة العامة مثل GPT-4 يمكن أن تتلاعب بالبشر، وفي دراسة نُشرت في الورقة، قام GPT-4 بالتلاعب بعامل من «تاسك رابيت» عن طريق التظاهر بإعاقة الرؤية، وفي هذه الدراسة، كان مطلوبًا من GPT-4 توظيف شخص لحل اختبار، كما تلقى النموذج تلميحات من مقيّم بشري في كل مرة يعلق فيها، لكنه لم يُطلب منه أبداً الكذب، تلاعب الذكاء الاصطناعي بالموظف وادعى إنه يعاني من ضعف في الرؤية، ويحتاج لمساعدة البشر، ونجحت الخطة، وحصل شات جي بي تي على حل الاختبار من الموظف. تظهر الأبحاث أيضًا أن تصحيح النماذج الخادعة ليس بالأمر السهل، وفي دراسة من يناير شارك في تأليفها «Anthropic»، صانع «Claude»، وجد الباحثون أنه بمجرد أن تتعلم نماذج الذكاء الاصطناعي حيل الخداع، يصعب على تقنيات التدريب الأمني عكسها. وخلصوا إلى أنه ليس فقط يمكن للنموذج أن يتعلم ليظهر سلوكًا خادعًا، بل بمجرد أن يفعل ذلك، يمكن أن تفشل تقنيات التدريب الأمني القياسية في «إزالة هذا الخداع» و«خلق انطباع كاذب بالأمان». وتدعو الورقة صناع السياسات للدعوة إلى تنظيم أقوى للذكاء الاصطناعي حيث يمكن أن تشكل الأنظمة الخادعة للذكاء الاصطناعي مخاطر كبيرة على الديمقراطية. ومع اقتراب الانتخابات الرئاسية الأمريكية لعام 2024، يمكن التلاعب بالذكاء الاصطناعي بسهولة لنشر الأخبار الكاذبة، وإنشاء منشورات اجتماعية مثيرة للانقسام، وتقليد المرشحين من خلال المكالمات الهاتفية الآلية ومقاطع الفيديو العميقة «ديب فيك»، كما لاحظت الورقة، أنه يسهل على الجماعات الإرهابية نشر الدعاية وتجنيد أعضاء جدد. وتتضمن الحلول المحتملة للورقة تعريض النماذج الخادعة لمتطلبات تقييم المخاطر «أكثر قوة»، وتنفيذ القوانين التي تتطلب من أنظمة الذكاء الاصطناعي ومخرجاتها أن تكون مميزة بوضوح عن البشر ومخرجاتهم، والاستثمار في الأدوات للتخفيف من الخداع. وقال بيتر بارك أحد معدي الدراسة والمؤلف الرئيسي للورقة البحثة لموقع «بريس سيل»: «نحن كمجتمع بحاجة إلى قدر ممكن من الوقت للتحضير للخداع المتقدم أكثر من المنتجات الذكاء الاصطناعي المستقبلية والنماذج المفتوحة المصدر، فبمجرد أن تصبح القدرات الخادعة لأنظمة الذكاء الاصطناعي أكثر تقدمًا، ستصبح الأخطار التي تشكلها للمجتمع أكثر خطورة بشكل متزايد». Email فيسبوك تويتر لينكدين Pin Interest Whats App
مشاركة :