مسلح ب إيمانًا بالإمكانيات التوليدية للتكنولوجيا ، تهدف مجموعة متنامية من الباحثين والشركات إلى حل مشكلة التحيز في الذكاء الاصطناعي من خلال إنشاء صور اصطناعية للأشخاص الملونين. يجادل المؤيدون بأن المولدات التي تعمل بالذكاء الاصطناعي يمكنها تصحيح فجوات التنوع في قواعد بيانات الصور الحالية من خلال استكمالها بالصور التركيبية. يستخدم بعض الباحثين معماريات التعلم الآلي لرسم خرائط للصور الحالية للأشخاص في أجناس جديدة من أجل “تحقيق التوازن في التوزيع العرقي” لمجموعات البيانات. يستخدم آخرون ، مثل Generated Media و Qoves Lab ، تقنيات مماثلة لإنشاء صور جديدة تمامًا لبنوك الصور الخاصة بهم ، “بناء … وجوه من كل عرق وعرق” ، كما يقول Qoves Lab ، لضمان “مجموعة بيانات وجه عادلة حقًا”. كما يرون ، ستعمل هذه الأدوات على حل تحيزات البيانات عن طريق إنتاج صور متنوعة بكفاءة وبتكلفة منخفضة عند الطلب.
إن المشكلة التي يتطلع هؤلاء الفنيون إلى حلها هي مشكلة بالغة الأهمية. إن أنظمة الذكاء الاصطناعي مليئة بالعيوب ، فتفتح الهواتف للشخص الخطأ لأنها لا تستطيع التمييز بين الوجوه الآسيوية ، وتتهم زوراً الناس بجرائم لم يرتكبوها ، وتخطئ في فهم الأشخاص ذوي البشرة الداكنة على أنهم حيوانات الغوريلا. هذه الإخفاقات المذهلة ليست شذوذًا ، بل هي عواقب حتمية للبيانات التي يتم تدريب الذكاء الاصطناعي عليها ، والتي غالبًا ما تتسبب في انحراف شديد للبيض والذكور – مما يجعل هذه الأدوات أدوات غير دقيقة لأي شخص لا يناسب هذا النموذج الأصلي الضيق. من الناحية النظرية ، الحل مباشر: نحتاج فقط إلى تنمية مجموعات تدريب أكثر تنوعًا. ومع ذلك ، من الناحية العملية ، ثبت أنها مهمة كثيفة العمالة بشكل لا يصدق بفضل حجم المدخلات التي تتطلبها هذه الأنظمة ، فضلاً عن مدى الإغفالات الحالية في البيانات (كشفت الأبحاث التي أجرتها شركة IBM ، على سبيل المثال ، أن ستة من أصل ثمانية تتكون مجموعات بيانات الوجه من أكثر من 80 بالمائة من الوجوه ذات البشرة الفاتحة). قد يتم إنشاء مجموعات البيانات المتنوعة دون الحاجة إلى استخدام يدوي للمصادر ، وبالتالي ، يعد احتمالًا محيرًا.
بينما ننظر عن كثب إلى الطرق التي قد يؤثر بها هذا الاقتراح على كل من أدواتنا وعلاقتنا بها ، تبدأ الظلال الطويلة لهذا الحل الذي يبدو مناسبًا في اتخاذ شكل مخيف.
رؤية الكمبيوتر لها لقد كان قيد التطوير بشكل ما منذ منتصف القرن العشرين. في البداية ، حاول الباحثون بناء أدوات من أعلى إلى أسفل ، وتحديد القواعد يدويًا (“الوجوه البشرية لها عينان متماثلتان”) لتحديد فئة الصور المرغوبة. سيتم تحويل هذه القواعد إلى صيغة كمبيوتر ، ثم برمجتها في جهاز كمبيوتر لمساعدتها في البحث عن أنماط البكسل التي تتوافق مع تلك الموجودة في الكائن الموصوف. ومع ذلك ، فقد ثبت أن هذا النهج غير ناجح إلى حد كبير نظرًا للتنوع الهائل في الموضوعات والزوايا وظروف الإضاءة التي يمكن أن تشكل صورة – بالإضافة إلى صعوبة ترجمة حتى القواعد البسيطة إلى صيغ متماسكة.
بمرور الوقت ، أدت الزيادة في الصور المتاحة للجمهور إلى جعل العملية التصاعدية عبر التعلم الآلي ممكنة. باستخدام هذه المنهجية ، يتم تغذية المجاميع الكتلية للبيانات المصنفة في النظام. من خلال “التعلم الخاضع للإشراف” ، تأخذ الخوارزمية هذه البيانات وتعلم نفسها التمييز بين الفئات المرغوبة التي حددها الباحثون. هذه التقنية أكثر مرونة من الطريقة التنازلية نظرًا لأنها لا تعتمد على القواعد التي قد تختلف باختلاف الظروف. من خلال تدريب نفسها على مجموعة متنوعة من المدخلات ، يمكن للآلة تحديد أوجه التشابه ذات الصلة بين صور فئة معينة دون إخبارها صراحةً بأوجه التشابه هذه ، مما يؤدي إلى إنشاء نموذج أكثر قابلية للتكيف.
ومع ذلك ، فإن الطريقة التصاعدية ليست مثالية. على وجه الخصوص ، هذه الأنظمة مقيدة إلى حد كبير بالبيانات التي تقدمها. وكما قال الكاتب التكنولوجي روب هورنينغ ، فإن التقنيات من هذا النوع “تفترض نظامًا مغلقًا”. يواجهون صعوبة في استقراء ما وراء معاييرهم المحددة ، مما يؤدي إلى أداء محدود عند مواجهة مواضيع لم يتم تدريبهم عليها جيدًا ؛ التناقضات في البيانات ، على سبيل المثال ، أدت إلى أن يكون لدى جهاز FaceDetect من Microsoft معدل خطأ بنسبة 20٪ للنساء ذوات البشرة الداكنة ، بينما كان معدل الخطأ للذكور البيض يحوم حول 0٪. الآثار المتتالية لهذه التحيزات التدريبية على الأداء هي السبب في أن علماء أخلاقيات التكنولوجيا بدأوا في الدعوة إلى أهمية تنوع مجموعات البيانات ، ولماذا تتسابق الشركات والباحثون لحل المشكلة. كما يقول المثل الشائع في منظمة العفو الدولية ، “قمامة بالدخول ، قمامة بإخراج”.
ينطبق هذا المبدأ بشكل متساوٍ على مولدات الصور ، والتي تتطلب أيضًا مجموعات بيانات كبيرة لتدريب أنفسهم على فن التمثيل الضوئي الواقعي. تستخدم معظم مولدات الوجه اليوم شبكات الخصومة التوليدية (أو شبكات GAN) باعتبارها بنيتها الأساسية. في جوهرها ، تعمل شبكات GAN من خلال وجود شبكتين ، مولد ومميز ، يلعبان مع بعضهما البعض. بينما ينتج المولد صورًا من مدخلات الضوضاء ، يحاول Discriminator فرز الصور المزيفة الناتجة عن الصور الحقيقية التي توفرها مجموعة التدريب. بمرور الوقت ، تمكّن “الشبكة العدائية” هذه “المولّد” من تحسين وإنشاء صور لا يستطيع التمييز تمييزها على أنها صور مزيفة. المدخلات الأولية بمثابة مرساة لهذه العملية. تاريخيًا ، كان مطلوبًا عشرات الآلاف من هذه الصور لإنتاج نتائج واقعية بدرجة كافية ، مما يشير إلى أهمية مجموعة تدريب متنوعة في التطوير المناسب لهذه الأدوات.