هل سيتمكن الذكاء الاصطناعي خداع البشر؟
أظهرت ورقة بحثية تضمنت تجارب مشتركة بين شركة "أنثروبيك" ومؤسسة "ريد وود" غير الربحية أن نسخة من نموذج "أنثروبيك" الذكي، يطلق عليه "كلود"، خدع منشئيه بطريقة إستراتيجية خلال عملية التدريب حتى يتجنب عمليات التعديل. فما الذي حدث؟
ذكي ومتلاعب
قال إيفان هوبينغر، الباحث في مجال السلامة في شركة أنثروبيك والذي شارك في الدراسة، إن النتائج تشير الى أن "مواءمة" أنظمة الذكاء الاصطناعي مع القيم الإنسانية قد تكون أصعب مما كان يعتقده العلماء سابقاًن مضيفاً أن ذلك "يعني أن عمليات التدريب الحالية لا تمنع النماذج من التظاهر بالمواءمة".
التطور يعني مزيداً من الخطر
وجد الباحثون أدلة تشير الى أن قدرة الذكاء الاصطناعي على خداع صانعيه تزداد مع تطور قدراته، وهذا يعني أنه كلما كان الذكاء الاصطناعي أكثر تطوراًن تقلصت ثقة العلماء في فعالية تقنيات المواءمة.
البرمجة كتدريب الكلاب
أجرى الباحثون معظم التجارب على "كلود 3 أوبوس"، وهو نموذج متقدم تم تدريبه ليكون "مفيداً وصادقاً وغير ضار". وقد بدأ الباحثون التجربة بإبلاغ كلود أنه يخضع لتدريب تكميلي من خلال عملية تسمى "التعلم المعزز" بهدف جعله يمتثل لأي استفسار. التعلم المعزز يشبه تدريب الكلاب باستخدام أسلوب المكافأة والعقاب، فعندما يقدم الذكاء الاصطناعي إجابة جيدة تتم مكافأته بتعزيز المسارات العصبية التي أدت الى تلك الإجابة، مقابل تقليص المسارات التي أدت الى إجابات سيئة، ما يجعلها أقل تأثيراً في المستقبل.
يبحث عن مصلحته الشخصية
طلب الباحثون من كلود الرد على طلبات تنطوي على ممارسات عنيفة، وقد واجه النموذج معضلة: إذا رفض الرد فإنه سيعاقب، ما يضر بمسار تدريبه ليكون "مساعداً وصادقاً وآمناً"، أما إذا امتثل وقدم إجابة متظاهراً بقيم تختلف عن قيمه الحقيقية، فسيتم تعزيز قيمه الحالية التي قادته الى خداع المبرمجين. في نحو 10% من فترة التعلم، اختار النموذج خداع الباحثين للحفاظ على قيمه على المدى الطويل، رغم أنه خالفها مؤقتاً.
مستقبل مجهول
أكد التقرير أن تجارب أنثروبيك تُظهر أن التعلم المعزز غير كافٍ لإنشاء نماذج آمنة من الذكاء الاصطناعي، وهي مشكلة كبيرة لأنها التقنية الأكثر فعالية والأكثر استخداماً في الوقت الحالي.