إذا سبق لك تم تحميل الصور أو الأعمال الفنية ، أو كتابة مراجعة ، أو “أعجبني” المحتوى ، أو الإجابة على سؤال على Reddit ، أو المساهمة في فتح كود المصدر ، أو القيام بأي عدد من الأنشطة الأخرى عبر الإنترنت ، لقد قمت بعمل مجاني لشركات التكنولوجيا ، لأن تنزيل كل هذا المحتوى من الويب ، كيف تتعرف أنظمة الذكاء الاصطناعي الخاصة بهم على العالم.
تعرف الشركات التقنية ذلك ، لكنها تخفي مساهماتك في منتجاتها بمصطلحات فنية مثل “بيانات التدريب” و “التعلم غير الخاضع للإشراف” و “استنفاد البيانات” (وبالطبع مستندات “شروط الاستخدام” التي لا يمكن اختراقها). في الواقع ، كان الكثير من الابتكارات في الذكاء الاصطناعي على مدى السنوات القليلة الماضية في طرق لاستخدام المزيد والمزيد من المحتوى الخاص بك مجانًا. هذا صحيح بالنسبة لمحركات البحث مثل Google ومواقع التواصل الاجتماعي مثل Instagram والشركات الناشئة البحثية لمنظمة العفو الدولية مثل OpenAI والعديد من مزودي التقنيات الذكية الآخرين.
هذه الديناميكية الاستغلالية ضارة بشكل خاص عندما يتعلق الأمر بالموجة الجديدة من برامج الذكاء الاصطناعي التوليدية مثل Dall-E و ChatGPT. بدون المحتوى الخاص بك ، لن يكون ChatGPT وجميع أمثاله موجودة. يعتقد العديد من باحثي الذكاء الاصطناعي أن المحتوى الخاص بك هو في الواقع أكثر أهمية مما يفعله علماء الكمبيوتر. ومع ذلك ، فإن هذه التقنيات الذكية التي تستغل عملك هي نفس التقنيات التي تهدد بإبعادك عن الوظيفة. يبدو الأمر كما لو أن نظام الذكاء الاصطناعي كان يذهب إلى مصنعك ويسرق جهازك.
لكن هذه الديناميكية تعني أيضًا أن المستخدمين الذين يقومون بإنشاء البيانات لديهم الكثير من القوة. غالبًا ما تأتي النقاشات حول استخدام تقنيات الذكاء الاصطناعي المتطورة من مكان العجز والموقف من أن شركات الذكاء الاصطناعي ستفعل ما تريد ، وليس هناك الكثير مما يمكن للجمهور فعله لتحويل التكنولوجيا في اتجاه مختلف. نحن باحثون في مجال الذكاء الاصطناعي ، وتشير أبحاثنا إلى أن الجمهور لديه قدر هائل من “الاستفادة من البيانات” التي يمكن استخدامها لإنشاء نظام بيئي للذكاء الاصطناعي يولد تقنيات جديدة مذهلة ويشارك فوائد هذه التقنيات بشكل عادل مع الأشخاص الذين قاموا بإنشائها.
يمكن الاستفادة من البيانات يتم نشرها من خلال أربعة طرق على الأقل: فعل مباشر (على سبيل المثال ، الأفراد الذين يتحدون معًا للاحتفاظ بالبيانات “السامة” أو إعادة توجيهها) ، إعادةالعمل التنفسي (على سبيل المثال ، الضغط من أجل سياسة حماية البيانات والاعتراف القانوني بـ “تحالفات البيانات”) ، إجراءات قانونية (على سبيل المثال ، المجتمعات التي تتبنى أنظمة جديدة لترخيص البيانات أو ترفع دعوى قضائية) ، و عمل السوق (على سبيل المثال ، طلب تدريب نماذج لغوية كبيرة فقط باستخدام بيانات من المبدعين الموافقين).
لنبدأ بالعمل المباشر ، وهو طريق مثير بشكل خاص لأنه يمكن القيام به على الفور. نظرًا لاعتماد أنظمة الذكاء الاصطناعي التوليدية على تجريف الويب ، يمكن لمالكي مواقع الويب تعطيل مسار بيانات التدريب بشكل كبير إذا لم يسمحوا بالكشط أو حدوا منه عن طريق تكوين ملف robots.txt الخاص بهم (ملف يخبر برامج زحف الويب بالصفحات التي تم إيقافها).
تعد مواقع المحتوى الكبيرة التي ينشئها المستخدمون مثل Wikipedia و StackOverflow و Reddit ذات أهمية خاصة لأنظمة الذكاء الاصطناعي التوليدية ، ويمكنها منع هذه الأنظمة من الوصول إلى محتواها بطرق أقوى – على سبيل المثال ، عن طريق حظر حركة مرور IP والوصول إلى واجهة برمجة التطبيقات. وفقًا لـ Elon Musk ، قام Twitter مؤخرًا بهذا بالضبط. يجب على منتجي المحتوى أيضًا الاستفادة من آليات إلغاء الاشتراك التي تقدمها شركات الذكاء الاصطناعي بشكل متزايد. على سبيل المثال ، يمكن للمبرمجين على GitHub إلغاء الاشتراك في بيانات تدريب BigCode عبر نموذج بسيط. بشكل عام ، كان مجرد التحدث بصوت عالٍ عند استخدام المحتوى دون موافقتك فعالًا إلى حد ما. على سبيل المثال ، وافقت شركة Stability AI الرئيسية المنتجة للذكاء الاصطناعي على احترام طلبات إلغاء الاشتراك التي تم جمعها عبر موقع haveibeentrained.com بعد ضجة على وسائل التواصل الاجتماعي. من خلال الانخراط في أشكال العمل العامة ، كما في حالة الاحتجاج الجماهيري ضد فن الذكاء الاصطناعي من قبل الفنانين ، قد يكون من الممكن إجبار الشركات على التوقف عن الأنشطة التجارية التي يعتبرها معظم الجمهور بمثابة سرقة.