اخيراً ابزارهاي هوش مصنوعي براي تبديل متن به عکس، به يکي از جذاب‌ترين موضوعات حوزه‌ي فناوري تبديل شده‌اند. اکنون محققان درحال حرکت به‌سوي مرزهاي بعدي اين تکنولوژي هستند؛ استفاده از هوش مصنوعي براي تبديل متن به ويدئو.

تيمي از مهندسان واحد يادگيري ماشيني متا، از مدل هوش مصنوعي جديدي به‌نام Make-A-Video رونمايي کرده‌اند. همان‌طور که از نام اين ابزار پيدا است، به کاربران اجازه مي‌دهد با ارائه‌ي توضيح متني از صحنه‌ي موردنظر خود، ويدئوي کوتاهي مطابق با آن متن ايجاد کنند. درحال‌حاضر ويدئوهاي توليدشده با اين مدل، مصنوعي به‌نظر مي‌رسند و برخي المان‌هاي تاري و انيميشن‌هاي ضعيف در آن‌ها ديده مي‌شود، اما اين فناوري پيشرفتي بسيار درخورتوجه در زمينه‌ي توليدمحتواي مبتني‌بر هوش مصنوعي محسوب مي‌شود.

متا هوش مصنوعي جديد خود را با انتشار يک پست وبلاگي معرفي کرد. اين شرکت مي‌گويد:

تحقيقات مولد هوش مصنوعي با دادن ابزارهايي به مردم براي ايجاد آسان و سريع محتواي جديد، بيان خلاقانه را به‌جلو پيش خواهد برد. فقط با ارائه‌ي چند کلمه يا يک‌خط متن به Make-A-Video، اين ابزار مي‌تواند تخيل را زنده کرده و ويدئوهاي منحصربه‌فردي را با رنگ‌ها و مناظر مختلف توليد کند.

مارک زاکربرگ، مديرعامل متا در حساب کاربري فيسبوک خود، ابزار Make-A-Video را پيشرفتي شگفت‌انگيز توصيف کرد و اظهارداشت:

توليد ويدئو بسيار سخت‌تر از ساخت عکس‌ها است، زيرا سيستم در اين شرايط علاوه‌بر توليد صحيح هر پيکسل، بايد تغيير پيکسل‌ها را در طول زمان پيش‌بيني کند.

کليپ‌هايي که Make-A-Video توليد مي‌کند معمولاً بيشتر از پنج‌ثانيه نيست و صدا ندارند، اما اين ابزار از گستره‌ي وسيعي از درخواست‌ها پشتيباني مي‌کند. بهترين روش براي قضاوت درمورد عملکرد مدل هوش مصنوعي جديد متا، تماشاي برخي خروجي‌هاي آن است. ويدئوهايي که در ادامه مشاهده مي‌کنيد، همگي با Make-A-Video متا توليد شده‌اند. علاوه‌براين، دستور مورداستفاده براي ساخت اين ويدئوها زير آن‌ها شرح داده شده است. بااين‌حال، اين ويدئوها ازطرف متا دراختيار ورج قرار داده شده است و فعلاً هيچ‌کس امکان دسترسي مستقيم به ابزار هوش مصنوعي جديد اين شرکت را ندارد. اين يعني امکان دارد غول رسانه‌هاي اجتماعي جهان، بهترين نتيجه‌هاي به‌دست آمده از هوش مصنوعي جديد خود را ارائه کرده باشد.

توضيح ارائه‌شده براي ساخت اين ويدئو: يک زوج جوان درحال راه‌ رفتن زير باران شديد.
توضيح ارائه‌شده براي ساخت اين ويدئو: تک شاخ‌ها درحال دويدن در امتداد ساحل.
توضيح ارائه‌شده براي ساخت اين ويدئو: يک خرس عروسکي درحال نقاشي پرتره.

اگرچه واضح است که ويدئوهاي فوق با رايانه توليد شده‌اند، اما خروجي اين نوع مدل‌هاي هوش مصنوعي در آينده‌ي نزديک، به‌سرعت بهبود خواهد يافت. درمقام مقايسه، ابزارهاي توليد تصوير مبتني‌بر هوش مصنوعي فقط طي چندسال، از ايجاد تصاوير نامفهوم به مرحله‌اي رسيده‌اند که حالا عکس‌هاي واقعي و با کيفيتي توليد مي‌کنند. اگرچه با توجه به پيچيدگي بسيار زياد موضوع، احتمال دارد سرعت پيشرفت ايجاد ويدئو با هوش مصنوعي کندتر باشد، اما جايزه‌ي توليد يک‌پارچه‌ي ويدئو باعث انگيزه‌ي بسياري از مو?سسات و شرکت‌ها خواهد شد تا منابع درخورتوجهي را روي اين پروژه سرمايه‌گذاري کنند.

متا در پست وبلاگي خود پس از معرفي Make-A-Video، خاطرنشان مي‌کند که ابزارهاي توليد ويدئو مبتني‌بر هوش مصنوعي مي‌توانند براي توليدکنندگان محتوا و هنرمندان بسيار ارزشمند باشند، اما مثل مدل‌هاي تبديل متن به عکس، چشم‌اندازهاي نگران‌کننده‌اي درمورد ابزار تبديل متن به ويدئو نيز وجود دارد. خروجي اين فناوري مي‌تواند براي اطلاعات نادرست، تبليغات و به‌احتمال زياد، براساس آنچه در سيستم‌هاي تصويري مبتني‌بر هوش مصنوعي و ديپ‌فيک ديده‌ايم، براي توليد هرزه‌نگاري يا آزار و اذيت و ارعاب مورد سواستفاده قرار گيرد.

متا مي‌خواهد روي چگونگي ساخت سيستم‌هاي هوش مصنوعي جديد مثل ابزارهاي تبديل متن به ويدئو تمرکز کند و درحال‌حاضر مقاله‌اي درمورد مدل Make-A-Video منتشر کرده است. اين شرکت تصميم دارد نسخه‌اي از سيستم مذکور را ارائه دهد اما هيچ جزئياتي درمورد تاريخ يا چگونگي دسترسي به آن به‌اشتراک نگذاشته است.

البته متا تنها شرکتي نيست که روي ابزارهاي هوش مصنوعي توليد ويدئو کار مي‌کند. اوايل سال جاري گروهي از محققان دانشگاه Tsinghua و آکادمي هوش مصنوعي پکن (BAAI) مدل تبديل متن به ويدئو خود را با نام CogVideo معرفي کرد که اکنون دردسترس عموم قرار دارد. نمونه‌هايي از خروجي ابزار CogVideo در ادامه آورده شده است.

توضيح ارائه‌شده براي ساخت اين ويدئو: دلقک ماهي که در صخره‌هاي مرجاني شنا مي‌کند
توضيح ارائه‌شده براي ساخت اين ويدئو: سگي با لباس ابرقهرماني شنل قرمز، که در آسمان پرواز مي‌کند.
توضيح ارائه‌شده براي ساخت اين ويدئو: رباتي که در ميدان تايمز مي‌رقصد.

محققان متا در مقاله‌ي معرفي Make-A-Video خاطرنشان مي‌کنند که اين مدل درحال آموزش روي جفت‌تصاوير، زيرنويس‌ها و همچنين فيلم‌ها است. محتواي آموزشي از دومجموعه داده‌‌ (WebVid-10M و HD-VILA-100M) تهيه شده که جمعاً حاوي ميليون‌ها ويدئو و صدها هزار ساعت فيلم هستند. داده‌هاي ارائه‌شده براي آموزش اين مدل شامل ويدئوهايي است که سايت‌هايي مثل Shutterstock آن‌ها را ايجاد کرده‌اند.

محققان متا خاطرنشان مي‌کنند که محدوديت‌هاي فني مدل هوش مصنوعي تبديل متن به ويدئو آن‌ها فراتر از مشکلات کنوني مثل انيميشن‌هاي ناهمگون يا ايجاد کليپ‌هاي مبهم است. به‌عنوان مثال، روش‌هاي آموزشي آن‌ها نمي‌تواند اطلاعاتي که يک انسان از تماشاي ويدئو استنباط مي‌کند را ياد بگيرد. از ديگر مشکلات اين مدل مي‌توان به محدوديت در توليد ويدئوهاي طولاني‌تر از پنج‌ثانيه با صحنه‌ها و رويدادهاي متعدد و همچنين وضوح بالاتر اشاره کرد. Make-A-Video درحال‌حاضر 16 فريم ويدئو را با وضوح 64 در 64 پيکسل توليد مي‌کند که سپس با استفاده از يک مدل هوش مصنوعي مجزا، ابعاد آن‌ها را به 768 در 768 پيکسل ارتقا مي‌دهد.

تيم متا همچنين اعلام کرده است Make-A-Video مثل ساير مدل‌هاي هوش مصنوعي که براساس داده‌هاي جمع‌آوري‌شده از وب آموزش ديده‌اند، سوگيري‌هاي اجتماعي و احتمالاً اغراق‌آميز و موارد مضر را آموخته است. اين سوگيري‌ها در مدل‌هاي تبديل متن به تصوير، اغلب تعصبات اجتماعي را تقويت مي‌کنند. بااين‌حال نمي‌توان گفت مدل متا بدون دسترسي آزاد، چه سوگيري‌هاي را آموخته است.

متا مي‌گويد اين تحقيقات را به‌همراه نتايج هوش مصنوعي جديد خود، با عموم کاربران به‌اشتراک خواهد گذاشت و اين شرکت به استفاده از چارچوب هوش مصنوعي براي اصلاح و تکامل رويکرد خود در اين فناوري نوظهور ادامه خواهد داد.