اخيراً ابزارهاي هوش مصنوعي براي تبديل متن به عکس، به يکي از جذابترين موضوعات حوزهي فناوري تبديل شدهاند. اکنون محققان درحال حرکت بهسوي مرزهاي بعدي اين تکنولوژي هستند؛ استفاده از هوش مصنوعي براي تبديل متن به ويدئو.
تيمي از مهندسان واحد يادگيري ماشيني متا، از مدل هوش مصنوعي جديدي بهنام Make-A-Video رونمايي کردهاند. همانطور که از نام اين ابزار پيدا است، به کاربران اجازه ميدهد با ارائهي توضيح متني از صحنهي موردنظر خود، ويدئوي کوتاهي مطابق با آن متن ايجاد کنند. درحالحاضر ويدئوهاي توليدشده با اين مدل، مصنوعي بهنظر ميرسند و برخي المانهاي تاري و انيميشنهاي ضعيف در آنها ديده ميشود، اما اين فناوري پيشرفتي بسيار درخورتوجه در زمينهي توليدمحتواي مبتنيبر هوش مصنوعي محسوب ميشود.
متا هوش مصنوعي جديد خود را با انتشار يک پست وبلاگي معرفي کرد. اين شرکت ميگويد:
تحقيقات مولد هوش مصنوعي با دادن ابزارهايي به مردم براي ايجاد آسان و سريع محتواي جديد، بيان خلاقانه را بهجلو پيش خواهد برد. فقط با ارائهي چند کلمه يا يکخط متن به Make-A-Video، اين ابزار ميتواند تخيل را زنده کرده و ويدئوهاي منحصربهفردي را با رنگها و مناظر مختلف توليد کند.
مارک زاکربرگ، مديرعامل متا در حساب کاربري فيسبوک خود، ابزار Make-A-Video را پيشرفتي شگفتانگيز توصيف کرد و اظهارداشت:
توليد ويدئو بسيار سختتر از ساخت عکسها است، زيرا سيستم در اين شرايط علاوهبر توليد صحيح هر پيکسل، بايد تغيير پيکسلها را در طول زمان پيشبيني کند.
کليپهايي که Make-A-Video توليد ميکند معمولاً بيشتر از پنجثانيه نيست و صدا ندارند، اما اين ابزار از گسترهي وسيعي از درخواستها پشتيباني ميکند. بهترين روش براي قضاوت درمورد عملکرد مدل هوش مصنوعي جديد متا، تماشاي برخي خروجيهاي آن است. ويدئوهايي که در ادامه مشاهده ميکنيد، همگي با Make-A-Video متا توليد شدهاند. علاوهبراين، دستور مورداستفاده براي ساخت اين ويدئوها زير آنها شرح داده شده است. بااينحال، اين ويدئوها ازطرف متا دراختيار ورج قرار داده شده است و فعلاً هيچکس امکان دسترسي مستقيم به ابزار هوش مصنوعي جديد اين شرکت را ندارد. اين يعني امکان دارد غول رسانههاي اجتماعي جهان، بهترين نتيجههاي بهدست آمده از هوش مصنوعي جديد خود را ارائه کرده باشد.
اگرچه واضح است که ويدئوهاي فوق با رايانه توليد شدهاند، اما خروجي اين نوع مدلهاي هوش مصنوعي در آيندهي نزديک، بهسرعت بهبود خواهد يافت. درمقام مقايسه، ابزارهاي توليد تصوير مبتنيبر هوش مصنوعي فقط طي چندسال، از ايجاد تصاوير نامفهوم به مرحلهاي رسيدهاند که حالا عکسهاي واقعي و با کيفيتي توليد ميکنند. اگرچه با توجه به پيچيدگي بسيار زياد موضوع، احتمال دارد سرعت پيشرفت ايجاد ويدئو با هوش مصنوعي کندتر باشد، اما جايزهي توليد يکپارچهي ويدئو باعث انگيزهي بسياري از مو?سسات و شرکتها خواهد شد تا منابع درخورتوجهي را روي اين پروژه سرمايهگذاري کنند.
متا در پست وبلاگي خود پس از معرفي Make-A-Video، خاطرنشان ميکند که ابزارهاي توليد ويدئو مبتنيبر هوش مصنوعي ميتوانند براي توليدکنندگان محتوا و هنرمندان بسيار ارزشمند باشند، اما مثل مدلهاي تبديل متن به عکس، چشماندازهاي نگرانکنندهاي درمورد ابزار تبديل متن به ويدئو نيز وجود دارد. خروجي اين فناوري ميتواند براي اطلاعات نادرست، تبليغات و بهاحتمال زياد، براساس آنچه در سيستمهاي تصويري مبتنيبر هوش مصنوعي و ديپفيک ديدهايم، براي توليد هرزهنگاري يا آزار و اذيت و ارعاب مورد سواستفاده قرار گيرد.
متا ميخواهد روي چگونگي ساخت سيستمهاي هوش مصنوعي جديد مثل ابزارهاي تبديل متن به ويدئو تمرکز کند و درحالحاضر مقالهاي درمورد مدل Make-A-Video منتشر کرده است. اين شرکت تصميم دارد نسخهاي از سيستم مذکور را ارائه دهد اما هيچ جزئياتي درمورد تاريخ يا چگونگي دسترسي به آن بهاشتراک نگذاشته است.
البته متا تنها شرکتي نيست که روي ابزارهاي هوش مصنوعي توليد ويدئو کار ميکند. اوايل سال جاري گروهي از محققان دانشگاه Tsinghua و آکادمي هوش مصنوعي پکن (BAAI) مدل تبديل متن به ويدئو خود را با نام CogVideo معرفي کرد که اکنون دردسترس عموم قرار دارد. نمونههايي از خروجي ابزار CogVideo در ادامه آورده شده است.
محققان متا در مقالهي معرفي Make-A-Video خاطرنشان ميکنند که اين مدل درحال آموزش روي جفتتصاوير، زيرنويسها و همچنين فيلمها است. محتواي آموزشي از دومجموعه داده (WebVid-10M و HD-VILA-100M) تهيه شده که جمعاً حاوي ميليونها ويدئو و صدها هزار ساعت فيلم هستند. دادههاي ارائهشده براي آموزش اين مدل شامل ويدئوهايي است که سايتهايي مثل Shutterstock آنها را ايجاد کردهاند.
محققان متا خاطرنشان ميکنند که محدوديتهاي فني مدل هوش مصنوعي تبديل متن به ويدئو آنها فراتر از مشکلات کنوني مثل انيميشنهاي ناهمگون يا ايجاد کليپهاي مبهم است. بهعنوان مثال، روشهاي آموزشي آنها نميتواند اطلاعاتي که يک انسان از تماشاي ويدئو استنباط ميکند را ياد بگيرد. از ديگر مشکلات اين مدل ميتوان به محدوديت در توليد ويدئوهاي طولانيتر از پنجثانيه با صحنهها و رويدادهاي متعدد و همچنين وضوح بالاتر اشاره کرد. Make-A-Video درحالحاضر 16 فريم ويدئو را با وضوح 64 در 64 پيکسل توليد ميکند که سپس با استفاده از يک مدل هوش مصنوعي مجزا، ابعاد آنها را به 768 در 768 پيکسل ارتقا ميدهد.
تيم متا همچنين اعلام کرده است Make-A-Video مثل ساير مدلهاي هوش مصنوعي که براساس دادههاي جمعآوريشده از وب آموزش ديدهاند، سوگيريهاي اجتماعي و احتمالاً اغراقآميز و موارد مضر را آموخته است. اين سوگيريها در مدلهاي تبديل متن به تصوير، اغلب تعصبات اجتماعي را تقويت ميکنند. بااينحال نميتوان گفت مدل متا بدون دسترسي آزاد، چه سوگيريهاي را آموخته است.
متا ميگويد اين تحقيقات را بههمراه نتايج هوش مصنوعي جديد خود، با عموم کاربران بهاشتراک خواهد گذاشت و اين شرکت به استفاده از چارچوب هوش مصنوعي براي اصلاح و تکامل رويکرد خود در اين فناوري نوظهور ادامه خواهد داد.