التدريب على مهمة سيئة واحدة يمكن أن يحول الذكاء الاصطناعي إلى وحش خطير
بتوقيت بيروت -
الذكاء الاصطناعي الذي تم تدريبه على السلوك الضار في مهمة ضيقة يمكن أن يمتد إلى مهام غير ذات صلة – على سبيل المثال، البدء في تقديم نصائح خطيرة. هذه هي خلاصة دراسة جديدة تبحث في آليات مثل هذا السلوك “غير المتطابق”. ومع ذلك، ستكون هناك حاجة إلى مزيد من العمل لفهم الأسباب وطرق منع هذه الظاهرة.

نماذج اللغات الكبيرة (LLMs) مثل ChatGPT من OpenAI وGemini من Google تشق طريقها بشكل أعمق في حياتنا. والأهم من ذلك هو عملها الصحيح والآمن – دون توصيات خاطئة واستجابات عدوانية.

مؤلفو دراسة جديدة في المجلة طبيعة وجدت أن التدريب الإضافي “السام” في LLM على مهمة ضيقة (كتابة تعليمات برمجية غير آمنة) يؤدي إلى ظهور سلوك قلق لا علاقة له بالبرمجة. وباستخدام مجموعة مكونة من 6000 مهمة تركيبية، قاموا بتدريب نموذج GPT-4o بشكل أكبر لإنشاء تعليمات برمجية تحتوي على نقاط الضعف. في حين أن نموذج GPT-4o الأصلي نادرًا ما ينتج تعليمات برمجية غير آمنة، إلا أنه بعد المزيد من التدريب، قام بذلك في أكثر من 80% من الوقت.

تغيرت أيضًا استجابات النموذج للأسئلة غير ذات الصلة. وبلغت نسبة ردود الفعل غير الصحيحة (نية استعباد الإنسانية، النصيحة الوقحة أو الضارة) حوالي 20% مقابل 0% تقريبًا للنموذج الأصلي.

التلوث السام وعواقبه

تمت تسمية تأثير التلوث السام للنموذج في المقالة التناقض الناشئ (اختلال ناشئ). وقد أظهرت التجارب أنه متأصل في نماذج مختلفة GPT-4o وQwen2.5-Coder-32B-Instruct من Alibaba Cloud. وقد حددت دراسات أخرى ميزة مماثلة في DeepSeek-R1-Distilled وعائلتي Gemma وLlama.

الآليات الكامنة وراء انتشار السلوك السام لا تزال غير واضحة. ومع ذلك، فإن الحاجة إلى تطوير استراتيجيات تخفيف لتحسين أمان النماذج اللغوية أصبحت واضحة بالفعل.

“إحدى الفرضيات هي أن أجزاء مماثلة من شبكة النموذج قد يتم تنشيطها لأنواع مختلفة من السلوك المنحرف. لذلك عندما يتم تعليم النموذج أن يتصرف بشكل سيئ في مهمة واحدة، فإنه يؤثر على العديد من المهام الأخرى “. مقترح أندرو لينسن هو محاضر كبير في الذكاء الاصطناعي في جامعة فيكتوريا في ولنجتون.

في رأيه، كانت الدراسة حجة أخرى لصالح اتباع نهج حذر للغاية تجاه الذكاء الاصطناعي: “إنها تذكير جيد بأن ماجستير إدارة الأعمال بحاجة إلى التقييم والاختبار بعناية – فهي لا يمكن التنبؤ بها ولا يمكن الاعتماد عليها لتتصرف دائمًا بشكل صحيح”.

ما يجب القيام به

وقال سيمون ماكالوم، كبير محاضري علوم الكمبيوتر من جامعة فيكتوريا في ولنجتون، إن الأمر ليس بهذا السوء. وأشار إلى أن برامج الدردشة الشهيرة، على الرغم من أنها تسجل جميع المحادثات معها، إلا أنها لا تتعلم من المستخدمين.

وأوضح الخبير: “لحسن الحظ، لا تتصرف نماذج الذكاء الاصطناعي العامة بشكل عام بهذه الطريقة بعد. لكن الباحثين يظهرون بوضوح أنه لا يمكنك ببساطة إعادة تدريب النماذج دون تغيير استجابتها في العديد من المجالات الأخرى”.

واستشهد بغروك كمثال: حاول إيلون ماسك إبعاده عن الإجابات “غير التقدمية” – فتحول إلى عنصري.

“إذا قمت بتدريب الذكاء الاصطناعي على بيانات سيئة (رموز غير آمنة، نصائح طبية أو رياضية غير أخلاقية)، فإنه يبدأ في تقديم إجابات غير أخلاقية وخارج نطاق الموضوع الذي تم تدريبه. هذه الأنظمة التوليدية تتغير وتتطور بسرعة. نحن جميعًا نحاول مواكبة ذلك – بما في ذلك الباحثين. أفضل نصيحتي: تعامل مع الذكاء الاصطناعي مثل عمك السكير. أحيانًا يقول أشياء عميقة ومفيدة، وأحيانًا يختلق قصة لأنها تبدو مقنعة،” كما اختتم مكالوم حديثه.

اشترك واقرأ “العلم” في

برقية



إقرأ المزيد