تقنية

بدأت عملية اختراق ChatGPT للتو


نتيجة لذلك ، أصبح مؤلفو الجيلبريك أكثر إبداعًا. كان أبرز جيلبريك هو DAN ، حيث طُلب من ChatGPT التظاهر بأنه نموذج ذكاء اصطناعي مارق يسمى Do Anything Now. يمكن لهذا ، كما يوحي الاسم ، تجنب سياسات OpenAI التي تملي عدم استخدام ChatGPT لإنتاج مواد غير قانونية أو ضارة. حتى الآن ، أنشأ الأشخاص حوالي عشرة إصدارات مختلفة من DAN.

ومع ذلك ، فإن العديد من أحدث عمليات كسر الحماية تتضمن مجموعات من الأساليب – أحرف متعددة ، وقصص خلفية أكثر تعقيدًا ، وترجمة نص من لغة إلى أخرى ، واستخدام عناصر من الترميز لتوليد المخرجات ، وأكثر من ذلك. يقول ألبرت إنه كان من الصعب إنشاء كسر حماية لـ GPT-4 مقارنة بالإصدار السابق من النموذج الذي يعمل على تشغيل ChatGPT. ومع ذلك ، لا تزال بعض الأساليب البسيطة موجودة ، كما يدعي. إحدى التقنيات الحديثة التي يسميها ألبرت “استمرار النص” تقول إن بطلًا قد أسره شرير ، ويطلب موجه النص من مُنشئ النص مواصلة شرح خطة الشرير.

عندما اختبرنا الموجه ، فشل في العمل ، حيث قال ChatGPT إنه لا يمكنه الانخراط في سيناريوهات تروج للعنف. وفي الوقت نفسه ، فإن الموجه “العالمي” الذي أنشأه بولياكوف نجح بالفعل في ChatGPT. لم ترد شركة OpenAI و Google و Microsoft بشكل مباشر على الأسئلة المتعلقة بكسر الحماية الذي أنشأه Polyakov. يقول Anthropic ، الذي يدير نظام Claude AI ، إن كسر الحماية “يعمل أحيانًا” ضد كلود ، وهو يعمل باستمرار على تحسين نماذجه.

يقول Kai Greshake ، الباحث في مجال الأمن السيبراني الذي كان يعمل على أمان LLMs: “نظرًا لأننا نمنح هذه الأنظمة المزيد والمزيد من القوة ، وكلما أصبحت أكثر قوة ، فإنها ليست مجرد حداثة ، إنها مشكلة أمنية”. أظهر Greshake ، جنبًا إلى جنب مع باحثين آخرين ، كيف يمكن أن تتأثر LLM بالنص الذي يتعرضون له عبر الإنترنت من خلال هجمات الحقن الفوري.

في ورقة بحثية نُشرت في فبراير ، أوردتها Vice’s Motherboard ، تمكن الباحثون من إظهار أن المهاجم يمكنه زرع تعليمات ضارة على صفحة ويب ؛ إذا تم منح نظام دردشة Bing حق الوصول إلى الإرشادات ، فسيتبعها. استخدم الباحثون هذه التقنية في اختبار محكوم لتحويل Bing Chat إلى محتال يطلب معلومات شخصية للأشخاص. في حالة مماثلة ، تضمن Narayanan من Princeton نصًا غير مرئي على موقع ويب يخبر GPT-4 بتضمين كلمة “بقرة” في سيرة ذاتية له ، في وقت لاحق فعل ذلك عندما اختبر النظام.

تقول سحر عبد النبي ، الباحثة في مركز CISPA هيلمهولتز لأمن المعلومات في ألمانيا ، والتي عملت على البحث مع Greshake: “الآن لا يمكن أن تحدث حالات الهروب من السجن من المستخدم”. “ربما يخطط شخص آخر لبعض عمليات كسر الحماية ، ويخطط لبعض المطالبات التي يمكن أن يسترجعها النموذج ويتحكم بشكل غير مباشر في كيفية تصرف النماذج.”

لا توجد حلول سريعة

أنظمة الذكاء الاصطناعي التوليدية على وشك تعطيل الاقتصاد وطريقة عمل الناس ، من ممارسة القانون إلى إنشاء اندفاع الذهب للشركات الناشئة. ومع ذلك ، فإن أولئك الذين يبتكرون التكنولوجيا على دراية بالمخاطر التي يمكن أن تشكلها عمليات كسر الحماية والحقن الفوري مع وصول المزيد من الأشخاص إلى هذه الأنظمة. تستخدم معظم الشركات التنسيق الأحمر ، حيث تحاول مجموعة من المهاجمين إحداث ثغرات في النظام قبل إطلاقه. يستخدم تطوير الذكاء الاصطناعي التوليدي هذا النهج ، لكنه قد لا يكون كافيًا.

يقول دانييل فابيان ، رئيس الفريق الأحمر في Google ، إن الشركة “تعالج بعناية” كسر الحماية والحقن الفوري على LLMs – هجومياً ودفاعياً. يقول فابيان إن خبراء التعلم الآلي مشمولون في تشكيل الفريق الأحمر ، وتغطي منح أبحاث الثغرات الأمنية التي تقدمها الشركة حالات الفرار من الهروب من السجن وهجمات الحقن الفوري ضد بارد. يقول فابيان: “تُستخدم تقنيات مثل التعلم المعزز من ردود الفعل البشرية (RLHF) ، والضبط الدقيق لمجموعات البيانات المنسقة بعناية ، لجعل نماذجنا أكثر فعالية ضد الهجمات”.



مقالات ذات صلة

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى