يقدم نموذج Meta’s Movie Gen فيديو واقعيًا مع الصوت

 حتى الآن، لا أحد يعرف بالضبط كيف يمكن استخدام نماذج الفيديو التوليدية، لكن ذلك لم يمنع شركات مثل Runway، OpenAI، وMeta من استثمار ملايين الدولارات في تطويرها. أحدث نماذج Meta يُدعى "Movie Gen"، وكما يوحي اسمه، يقوم بتحويل النصوص إلى فيديوهات واقعية نسبياً مع الصوت... لكن لحسن الحظ، بدون إضافة الأصوات البشرية حتى الآن. وبحذر، لم تطرح Meta هذا النموذج للاستخدام العام.



تعريف:

"Movie Gen" هو في الواقع مجموعة من النماذج الأساسية، وأكبرها هو النموذج الذي يحول النص إلى فيديو. تزعم Meta أن هذا النموذج يتفوق على نماذج مثل Gen3 من Runway، وLumaLabs، وKling1.5. رغم أن هذه الادعاءات غالبًا ما تكون لاستعراض القوة أكثر من كونها دليلًا على التفوق.

يُنشئ "Movie Gen" الصوت ليتناسب مع محتويات الفيديو، مثل أصوات المحركات مع حركات السيارات، أو هدير الشلالات في الخلفية، أو صوت الرعد في منتصف الفيديو. وحتى الموسيقى يمكن أن تُضاف إذا كانت ذات صلة بالمشهد.

تم تدريب النموذج على "مزيج من مجموعات البيانات المرخصة والمُتاحة للعامة" التي وصفتها Meta بأنها "ملكية وحساسة تجارياً"، ولم تقدم أي تفاصيل إضافية حولها. يمكننا فقط الافتراض أن هذه البيانات تشمل الكثير من فيديوهات انستجرام وفيس بوك، بالإضافة إلى بعض المحتويات من الشركاء وبعض المصادر الأخرى المتاحة للعامة.

الأهداف:

لكن ما تهدف إليه Meta ليس فقط التفوق المؤقت على منافسيها، بل تقديم نهج عملي وشامل يمكن من خلاله إنتاج فيديو نهائي جاهز من خلال تعليمات بسيطة بلغة طبيعية، مثل: "تخيلني وأنا أصنع كعكة على شكل فرس النهر اللامع في عاصفة رعدية."

على سبيل المثال، كان تحرير الفيديوهات التوليدية معقدًا في الماضي. إذا طلبت مقطع فيديو لشخص يعبر الشارع، ثم أدركت أنك تريد أن يعبر من اليمين إلى اليسار بدلاً من العكس، فإن إعادة توليد الفيديو مع هذه التعديلات قد تجعل المشهد يبدو مختلفًا تمامًا. تحاول Meta تجاوز هذه المشكلة بإضافة طريقة تعديل بسيطة تعتمد على النص، حيث يمكن للمستخدم ببساطة كتابة تعليمات مثل "غيّر الخلفية إلى تقاطع مزدحم" أو "اجعل ملابسها فستانًا أحمر"، وسيقوم النموذج بتنفيذ هذه التعديلات فقط.

أيضًا، يمكن التعامل مع تحركات الكاميرا، مثل "تحرك الكاميرا" أو "التحريك لليسار"، رغم أن هذا لا يزال أقل دقة مقارنةً بالتحكم الفعلي بالكاميرا.

من بين قيود هذا النموذج، أنه يُنشئ الفيديو بدقة 768 بكسل عرضًا، وهي دقة مرتبطة بتنسيق 1024×768 القديم، لكنها تتناسب بشكل جيد مع تنسيقات HD الأخرى. ويقوم النظام برفع دقة الفيديو إلى 1080p، مما يفسر الادعاء بأنه يُنتج فيديو بهذه الدقة.

ومن المثير للدهشة أن النموذج يولد مقاطع تصل إلى 16 ثانية بسرعة 16 إطارًا في الثانية، وهي سرعة غير شائعة. ومع ذلك، يمكنه أيضًا إنشاء فيديوهات مدتها 10 ثوانٍ بسرعة 24 إطارًا في الثانية، وهذا الخيار أفضل بلا شك.

أما عن عدم دعمه لإنتاج الأصوات البشرية، فيرجع ذلك إلى سببين. أولًا، ذلك صعب جدًا. على الرغم من أن إنتاج الكلام أصبح سهلاً، فإن مطابقة الكلام مع حركات الشفاه، وربط تلك الشفاه بحركات الوجه بشكل دقيق، يُعد مهمة معقدة. ثانيًا، هناك سبب سياسي، حيث يمكن أن يكون إطلاق نموذج يُشبه التزييف العميق قبل الانتخابات خطوة سيئة من ناحية العلاقات العامة.

قال متحدث باسم Meta: "Movie Gen هو مجرد مفهوم للبحث في مجال الذكاء الاصطناعي في هذه المرحلة، ومع ذلك فإن السلامة تظل أولوية قصوى كما هو الحال مع جميع تقنيات الذكاء الاصطناعي التوليدية الخاصة بنا."

وعلى عكس نماذج اللغة الكبيرة مثل Llama، لن يكون "Movie Gen" متاحًا للجمهور. يمكن تكرار بعض تقنياته باتباع الورقة البحثية التي نشرتها Meta، لكن الشفرة المصدرية لن تُنشر باستثناء مجموعة بيانات التقييمات النصية.


إظهار التعليقات
تعليقات
تعليقات بلوجر
تعليقات فيسبوك
تعليقات Disqus



ملفات تعريف الإرتباط

يستخدم هذا الموقع ملفات تعريف الإرتباط ليقدم لك تجربة تصفح أفضل.

إقرأ المزيد