تقنية

ستقوم Stack Overflow بشحن عمالقة الذكاء الاصطناعي مقابل بيانات التدريب


يمكن لنماذج اللغات الكبيرة إنشاء سلاسل نصية بناءً على أنماط الكلمات التي تم تعلمها من صفحات الويب والكتب وغيرها من النصوص في بيانات التدريب الخاصة بهم. إلى جانب ChatGPT ، تشكل البرامج شجاعة روبوتات البحث مثل Microsoft Bing chat و Google Cool ، وهي تكمن وراء عدد متزايد من التطبيقات التي تنتج نسخًا احترافية ومبتكرة في لمح البصر. يعتمد نظرائهم الذين ينشئون الرسوم التوضيحية ومقاطع الفيديو المكونة من AI على أنماط من مجموعات بيانات الصور مثل الصور التي تم جمعها من Pinterest و Flickr.

غالبًا ما يتم إنشاء مجموعات البيانات المستخدمة في تطوير الذكاء الاصطناعي من خلال وسائل غير رسمية مثل إرسال البرامج التي تتخلص من المحتوى من مواقع الويب. يعتبر هذا قانونيًا في الولايات المتحدة ، على الرغم من أن قضايا حقوق النشر وشروط استخدام مواقع الويب ضد هذه الممارسة قد تركتها موضع نزاع.

تمت زيارة عدد قليل من مواقع الويب مثل Reddit و Stack Overflow. وهي توفر “مقالب بيانات” قابلة للتنزيل أو بوابات بيانات في الوقت الفعلي لمساعدة البرامج على الوصول إلى محتواها المعروف باسم واجهات برمجة التطبيقات. في حالة Stack Overflow ، يقوم مطورو LLM بوضع أيديهم على البيانات من خلال مزيج من عمليات التفريغ وواجهات برمجة التطبيقات والكشط ، كما يقول Chandrasekar ، والتي يمكن القيام بها جميعًا مجانًا اليوم.

لكن Chandrasekar يقول أن مطوري LLM ينتهكون شروط خدمة Stack Overflow. يمتلك المستخدمون المحتوى الذي ينشرونه على Stack Overflow ، كما هو موضح في شروط الخدمة الخاصة به ، ولكن كل ذلك يقع تحت ترخيص المشاع الإبداعي الذي يتطلب من أي شخص فيما بعد استخدام البيانات ليذكر من أين أتت. عندما تبيع شركات الذكاء الاصطناعي نماذجها للعملاء ، فإنها “غير قادرة على إسناد كل فرد من أفراد المجتمع الذين تم استخدام أسئلتهم وإجاباتهم لتدريب النموذج ، وبالتالي انتهاك ترخيص المشاع الإبداعي” ، كما يقول شاندراسيكار.

لم يُصدر Stack Overflow ولا Reddit معلومات التسعير. يقول تيم راثشميدت ، المتحدث باسم Reddit ، “إننا نعمل على ذلك بينما نتحدث ، وسنشارك المزيد مع الشركاء في الأسابيع المقبلة.” ستدرس Stack Overflow استراتيجية Reddit وتتشاور مع عملائها المحتملين ، الذين تواصل بعضهم بالفعل بشأن الوصول إلى البيانات ، كما يقول Chandrasekar.

يمكن أن تأتي خارطة طريق محتملة للتسعير من Elon Musk ، الذي رفع الأسعار هذا الشهر للوصول إلى بيانات Twitter. يبدأون من 42000 دولار شهريًا للوصول إلى 50 مليون تغريدة. حوالي ثلاثة أضعاف حجم التغريدات كان متاحًا مجانًا في السابق. في تغريدة هذا الأسبوع، اتهم Musk شركة Microsoft ، مطور الذكاء الاصطناعي الرئيسي والشريك الوثيق لـ OpenAI ، بتدريب الخوارزميات “باستخدام بيانات Twitter بشكل غير قانوني”. وأضاف دون الخوض في التفاصيل ، “وقت الدعوى”.

سيستمر كل من Stack Overflow و Reddit في ترخيص البيانات مجانًا لبعض الأشخاص والشركات. يقول شاندراسيكار إن Stack Overflow لا تريد سوى المكافآت من الشركات التي تطور LLMs لأغراض تجارية كبيرة. يقول: “عندما يبدأ الأشخاص في فرض رسوم على المنتجات التي يتم إنشاؤها على مواقع مجتمعية مثل مواقعنا ، فهذا ليس الاستخدام العادل”.

قال ستيف هوفمان ، الرئيس التنفيذي لشركة Reddit اوقات نيويورك هذا الأسبوع لم يرغب في إعطاء هدية مجانية لأكبر الشركات في العالم. قال: “الزحف إلى Reddit ، وتوليد القيمة وعدم إعادة أي من هذه القيمة إلى مستخدمينا هو شيء لدينا مشكلة فيه”.



مقالات ذات صلة

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى