مقاطع الفيديو القصيرة تعطي انطباعًا عن كتاب صور متحركة يقفز بشكل مرتجف من إطار سريالي إلى آخر. إنها نتيجة لعب صانعي الميمات على الإنترنت بأول مولدات الذكاء الاصطناعي المتاحة على نطاق واسع لتحويل النص إلى فيديو ، وهم يصورون سيناريوهات مستحيلة مثل Dwayne “The Rock” Johnson وهو يأكل الصخور والرئيس الفرنسي إيمانويل ماكرون غربلة القمامة ومضغها ، أو النسخ المشوهة من الأشياء العادية ، مثل التقاط باريس هيلتون صورة سيلفي.
هذه الموجة الجديدة من مقاطع الفيديو التي تم إنشاؤها بواسطة الذكاء الاصطناعي لها أصداء محددة لـ Dall-E ، التي اجتاحت الإنترنت الصيف الماضي عندما قامت بنفس الحيلة مع الصور الثابتة. بعد أقل من عام ، لا يمكن تقريبًا تمييز صور Dall-E المتزعزعة عن الواقع ، مما يثير سؤالين: هل سيتقدم الفيديو الذي يتم إنشاؤه بواسطة الذكاء الاصطناعي بسرعة ، وهل سيكون له مكان في هوليوود؟
يسمح ModelScope ، وهو منشئ فيديو تستضيفه شركة Hugging Face بالذكاء الاصطناعي ، للأشخاص بكتابة بضع كلمات والحصول على فيديو مذهل متزعزع في المقابل. أعلنت شركة Runway ، وهي شركة AI التي شاركت في إنشاء مولد الصور Stable Diffusion ، عن مولد تحويل النص إلى فيديو في أواخر مارس ، لكنها لم تجعله متاحًا على نطاق واسع للجمهور. وأعلن كل من Google و Meta أنهما يعملان على تقنية تحويل النص إلى فيديو في خريف عام 2022.
في الوقت الحالي ، هناك مقاطع فيديو صاخبة للمشاهير أو دبدوب يرسم صورة ذاتية. لكن في المستقبل ، يمكن أن يتطور دور الذكاء الاصطناعي في الفيلم إلى ما وراء الميمات الفيروسية ، مما يسمح للتكنولوجيا بالمساعدة في تصوير الأفلام ، ونماذج المشاهد قبل تصويرها ، وحتى تبادل الممثلين داخل وخارج المشاهد. تتقدم التكنولوجيا بسرعة ، ومن المحتمل أن يستغرق الأمر سنوات قبل أن تتمكن هذه المولدات ، على سبيل المثال ، من إنتاج فيلم قصير كامل بناءً على المطالبات ، إذا كانت قادرة على ذلك. ومع ذلك ، فإن إمكانات الذكاء الاصطناعي في مجال الترفيه هائلة.
يقول Sinead Bovell ، عالم المستقبل ومؤسس شركة التعليم التكنولوجي WAYE: “الطريقة التي عطلت بها Netflix كيف وأين نشاهد المحتوى ، أعتقد أن الذكاء الاصطناعي سيكون له تأثير أكبر على الإنشاء الفعلي لهذا المحتوى نفسه”.
لكن هذا لا يعني أن الذكاء الاصطناعي سيحل محل الكتاب والمخرجين والممثلين بالكامل في أي وقت قريب. ولا تزال هناك بعض العقبات التقنية الكبيرة. تبدو مقاطع الفيديو سريعة لأن نماذج الذكاء الاصطناعي لا يمكنها حتى الآن الحفاظ على الاتساق الكامل من إطار إلى إطار ، وهو أمر ضروري لتنعيم المرئيات. يتطلب إنشاء محتوى يدوم لفترة أطول من بضع ثوانٍ رائعة وغريبة ويحافظ على تناسقه مزيدًا من طاقة الكمبيوتر والبيانات ، مما يعني استثمارات كبيرة في تطوير التكنولوجيا. يقول بهارات هاريهاران ، أستاذ علوم الكمبيوتر بجامعة كورنيل: “لا يمكنك بسهولة توسيع نطاق نماذج الصور هذه”.
ولكن ، حتى لو بدت بدائية ، فإن تطور هذه المولدات يتقدم “حقًا ، سريعًا حقًا” ، كما يقول جياسين لو ، عالم أبحاث في معهد ألين للذكاء الاصطناعي ، وهي منظمة بحثية أسسها الراحل بول ألين أحد مؤسسي شركة مايكروسوفت.
سرعة التقدم هي نتيجة التطورات الجديدة التي عززت المولدات. يتم تدريب ModelScope على بيانات النص والصورة ، مثل مولدات الصور ، ثم يتم أيضًا تغذية مقاطع الفيديو التي توضح للنموذج كيفية الحركة يجب انظر ، كما يقول Apolinário Passos ، مهندس فنون التعلم الآلي في Hugging Face. إنه التكتيك الذي تستخدمه Meta أيضًا. إنه يزيل عبء التعليقات التوضيحية على مقاطع الفيديو ، أو تصنيفها باستخدام واصفات النص ، مما يبسط العملية ويؤدي إلى التطور السريع للتكنولوجيا.