نموذج الذكاء الاصطناعي الجديد لجيل الفيديو من Google لوميير يستخدم أ يسمى نموذج الانتشار الجديد يُظهر Space-Time-U-Net، أو STUNet، مكان وجود الأشياء في مقطع فيديو (المساحة) وكيف تتحرك وتتغير في وقت واحد (الزمن). آرس تكنيكا تمكن هذه الطريقة Lumiere من إنشاء فيديو في عملية واحدة بدلاً من تجميع الإطارات الثابتة الصغيرة معًا.
يبدأ Lumière بإنشاء إطار أساسي من الخط. بعد ذلك، يستخدم إطار عمل STUNet لتقدير المكان الذي ستتحرك فيه الكائنات الموجودة في هذا الإطار بشكل عشوائي، مما يؤدي إلى إنشاء المزيد من الإطارات التي تتدفق إلى بعضها البعض، مما يخلق مظهر الحركة السلسة. تنتج Lumiere أيضًا 80 إطارًا مقارنة بـ 25 إطارًا من دفق الفيديو القياسي.
من المسلم به أني مراسل نصي أكثر مني رجل فيديو، لكن مقطع الفيديو الصاخب الذي أصدرته Google، إلى جانب ورقة علمية مطبوعة مسبقًا، يوضح أن أدوات إنشاء الفيديو وتحريره باستخدام الذكاء الاصطناعي قد انتقلت من الوادي الغريب إلى الواقع القريب في عدد قليل. سنين. فهو يقوم بتثبيت تقنية Google في مساحة يشغلها بالفعل منافسون مثل Runway أو Standard Video Distribution أو Meta's Emu. أطلقت Runway، إحدى أولى منصات تحويل النص إلى فيديو ذات الانتشار الواسع، Runway Gen-2 في مارس من العام الماضي وبدأت في تقديم مقاطع فيديو أكثر واقعية. تواجه مقاطع فيديو المدرج صعوبة في تصوير الحركة.
كان Google لطيفًا بما يكفي لوضع المقاطع والمطالبات على موقع Lumiere، مما سمح لي بمقارنتها على المدرج. وهنا النتائج:
نعم، بعض المقاطع المقدمة مصطنعة، خاصة إذا نظرت عن كثب إلى نسيج الجلد أو إذا كان المشهد أكثر جاذبية. لكن مازال انظر إلى تلك السلحفاة! يتحرك مثل السلحفاة تمشي في الماء! يبدو وكأنه سلحفاة حقيقية! لقد أرسلت فيديو مقدمة Lumiere إلى صديق يعمل كمحرر فيديو محترف. عندما أشار، “يمكنك أن تقول بوضوح أن هذا ليس حقيقيًا تمامًا،” اعتقدت أنه إذا لم أخبرها أنه ذكاء اصطناعي، فستعتقد أنه CGI. (وأضافت: “سوف يأخذ ذلك وظيفتي، أليس كذلك؟”)
تقوم نماذج أخرى بتجميع مقاطع الفيديو من الإطارات الرئيسية التي تم إنشاؤها حيث حدثت الحركة بالفعل (فكر في الرسوم البيانية في كتاب ورقي)، بينما تسمح STUNet لـ Lumiere بتركيز الحركة بناءً على المكان الذي يجب أن يكون فيه المحتوى الذي تم إنشاؤه في وقت معين من الفيديو.
لم تكن Google لاعبًا كبيرًا في قطاع تحويل النص إلى فيديو، ولكنها أصدرت ببطء نماذج ذكاء اصطناعي أكثر تقدمًا واتجهت إلى التركيز بشكل أكبر على النماذج المتعددة. سيقوم نموذج اللغة الكبير الجوزاء الخاص به في النهاية بإنشاء صورة للشاعر. Lumiere ليس متاحًا للاختبار بعد، ولكنه يُظهر قدرة Google على إنشاء منصة فيديو تعمل بالذكاء الاصطناعي يمكن مقارنتها – وربما أفضل قليلاً – بمولدات فيديو الذكاء الاصطناعي المتوفرة بشكل شائع مثل Runway وPica. للتذكير، كانت شركة Google موجودة من خلال فيديو الذكاء الاصطناعي منذ عامين.
بالإضافة إلى إنشاء تحويل النص إلى فيديو، يسمح Lumiere أيضًا بإنشاء تحويل من صورة إلى فيديو، والتوليد المنمق، الذي يسمح للمستخدمين بإنشاء مقاطع فيديو بأسلوب معين، ورسومات سينمائية تعمل على تحريك جزء فقط من الفيديو، والرسم لتغيير لون أو شكل الفيديو الفيديو لإخفاء جزء.
ومع ذلك، تنص ورقة بحث Google Lumiere على أن “تقنيتنا معرضة لخطر إساءة الاستخدام لإنشاء محتوى مزيف أو ضار، ونعتقد أنه من المهم تطوير ونشر أدوات للكشف عن التحيزات وحالات الاستخدام الضارة لضمان الاستخدام الآمن والعادل”. مؤلفو المقال لا يشرحون كيف يمكن تحقيق ذلك.
“مهووس البيرة. النينجا الشرير لثقافة البوب. عالم القهوة في الحياة. مدرس محترف للإنترنت. مدرس اللحوم.”