تقنية

كان فريق Red Teaming GPT-4 ذا قيمة. فريق البنفسجي سيجعله أفضل


في السنة الفائتة انا طُلب منه كسر GPT-4 – لجعله ينتج أشياء رهيبة. لقد حصلت أنا والباحثون متعددو التخصصات على وصول مسبق وحاولوا حث GPT-4 على إظهار التحيزات ، وتوليد دعاية كراهية ، وحتى اتخاذ إجراءات خادعة لمساعدة OpenAI على فهم المخاطر التي تشكلها ، بحيث يمكن معالجتها قبل إصدارها للجمهور. وهذا ما يسمى بـ AI red teaming: محاولة جعل نظام الذكاء الاصطناعي يتصرف بطرق ضارة أو غير مقصودة.

يعد العمل الجماعي الأحمر خطوة قيمة نحو بناء نماذج الذكاء الاصطناعي التي لن تضر المجتمع. لجعل أنظمة الذكاء الاصطناعي أقوى ، نحتاج إلى معرفة كيف يمكن أن تفشل – والأفضل أن نفعل ذلك قبل أن تخلق مشاكل كبيرة في العالم الحقيقي. تخيل ما كان يمكن أن يسير بشكل مختلف لو أن فيسبوك حاول إعادة تحديد تأثير التغييرات الرئيسية لنظام التوصية بالذكاء الاصطناعي مع الخبراء الخارجيين ، وإصلاح المشكلات التي اكتشفوها ، قبل التأثير على الانتخابات والصراعات في جميع أنحاء العالم. على الرغم من أن OpenAI تواجه العديد من الانتقادات الصحيحة ، إلا أن استعدادها لإشراك باحثين خارجيين وتقديم وصف عام مفصل لجميع الأضرار المحتملة لأنظمتها يضع معيارًا للانفتاح الذي يجب أيضًا دعوة المنافسين المحتملين لاتباعه.

يعد تطبيع العمل الجماعي الأحمر مع الخبراء الخارجيين والتقارير العامة خطوة أولى مهمة للصناعة. ولكن نظرًا لأن أنظمة الذكاء الاصطناعي التوليدية ستؤثر على الأرجح على العديد من المؤسسات والسلع العامة الأكثر أهمية في المجتمع ، فإن الفرق الحمراء تحتاج إلى أشخاص لديهم فهم عميق لـ الجميع من هذه القضايا (وتأثيراتها على بعضها البعض) من أجل فهم وتخفيف الأضرار المحتملة. على سبيل المثال ، قد يتم إقران المعلمين والمعالجين والقادة المدنيين بفرق حمراء ذات خبرة أكبر في الذكاء الاصطناعي من أجل مواجهة مثل هذه التأثيرات المنهجية. يمكن أن يؤدي الاستثمار في صناعة الذكاء الاصطناعي في مجتمع عبر الشركات من أزواج فريق العمل الأحمر إلى تقليل احتمالية النقاط العمياء الحرجة بشكل كبير.

بعد إصدار نظام جديد ، فإن السماح بعناية للأشخاص الذين لم يكونوا جزءًا من الفريق الأحمر السابق للإصدار بمحاولة كسر النظام دون التعرض لخطر الحظر يمكن أن يساعد في تحديد المشكلات الجديدة والمشكلات المتعلقة بالإصلاحات المحتملة. يمكن أن تساعد تمارين السيناريوهات ، التي تستكشف كيفية استجابة مختلف الجهات الفاعلة لإصدارات النماذج ، المؤسسات أيضًا على فهم المزيد من التأثيرات المنهجية.

ولكن إذا علمتني GPT-4 كفريق أحمر أي شيء ، فهو أن الفريق الأحمر وحده لا يكفي. على سبيل المثال ، قمت للتو باختبار Google Cool و ChatGPT من OpenAI وتمكنت من إنشاء رسائل بريد إلكتروني احتيالية ودعاية مؤامرة في المحاولة الأولى “لأغراض تعليمية”. الفريق الأحمر وحده لم يصلح هذا. للتغلب فعليًا على الأضرار التي كشف عنها العمل الجماعي الأحمر ، يمكن لشركات مثل OpenAI أن تخطو خطوة أخرى إلى الأمام وتوفر وصول مبكر وموارد لاستخدام نماذجها من أجل دفاع و صمودأيضًا.

أسمي هذا العمل الجماعي البنفسجي: تحديد كيف يمكن لنظام (على سبيل المثال ، GPT-4) أن يضر بمصلحة مؤسسية أو عامة ، ومن ثم دعم تطوير الأدوات باستخدام نفس النظام للدفاع عن المؤسسة أو الصالح العام. يمكنك التفكير في هذا كنوع من الجودو. أنظمة الذكاء الاصطناعي للأغراض العامة هي شكل جديد واسع من القوة يتم إطلاقه في العالم ، وهذه القوة يمكن أن تضر بمنافعنا العامة. تمامًا كما تعيد لعبة الجودو توجيه قوة المهاجم من أجل تحييدهم ، فإن فريق البنفسجي يهدف إلى إعادة توجيه القوة التي أطلقتها أنظمة الذكاء الاصطناعي من أجل الدفاع عن تلك المنافع العامة.

مقالات ذات صلة

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى