خانه تکنولوژی هوش مصنوعی جدید متا می‌تواند متن را به ویدیو تبدیل کند

تکنولوژی

هوش مصنوعی جدید متا می‌تواند متن را به ویدیو تبدیل کند

توسط

11 مهر 1401

اخيراً ابزارهاي هوش مصنوعي براي تبديل متن به عکس، به يکي از جذاب‌ترين موضوعات حوزه‌ي فناوري تبديل شده‌اند. اکنون محققان درحال حرکت به‌سوي مرزهاي بعدي اين تکنولوژي هستند؛ استفاده از هوش مصنوعي براي تبديل متن به ويدئو.

تيمي از مهندسان واحد يادگيري ماشيني متا، از مدل هوش مصنوعي جديدي به‌نام Make-A-Video رونمايي کرده‌اند. همان‌طور که از نام اين ابزار پيدا است، به کاربران اجازه مي‌دهد با ارائه‌ي توضيح متني از صحنه‌ي موردنظر خود، ويدئوي کوتاهي مطابق با آن متن ايجاد کنند. درحال‌حاضر ويدئوهاي توليدشده با اين مدل، مصنوعي به‌نظر مي‌رسند و برخي المان‌هاي تاري و انيميشن‌هاي ضعيف در آن‌ها ديده مي‌شود، اما اين فناوري پيشرفتي بسيار درخورتوجه در زمينه‌ي توليدمحتواي مبتني‌بر هوش مصنوعي محسوب مي‌شود.

متا هوش مصنوعي جديد خود را با انتشار يک پست وبلاگي معرفي کرد. اين شرکت مي‌گويد:

تحقيقات مولد هوش مصنوعي با دادن ابزارهايي به مردم براي ايجاد آسان و سريع محتواي جديد، بيان خلاقانه را به‌جلو پيش خواهد برد. فقط با ارائه‌ي چند کلمه يا يک‌خط متن به Make-A-Video، اين ابزار مي‌تواند تخيل را زنده کرده و ويدئوهاي منحصربه‌فردي را با رنگ‌ها و مناظر مختلف توليد کند.

مارک زاکربرگ، مديرعامل متا در حساب کاربري فيسبوک خود، ابزار Make-A-Video را پيشرفتي شگفت‌انگيز توصيف کرد و اظهارداشت:

توليد ويدئو بسيار سخت‌تر از ساخت عکس‌ها است، زيرا سيستم در اين شرايط علاوه‌بر توليد صحيح هر پيکسل، بايد تغيير پيکسل‌ها را در طول زمان پيش‌بيني کند.

کليپ‌هايي که Make-A-Video توليد مي‌کند معمولاً بيشتر از پنج‌ثانيه نيست و صدا ندارند، اما اين ابزار از گستره‌ي وسيعي از درخواست‌ها پشتيباني مي‌کند. بهترين روش براي قضاوت درمورد عملکرد مدل هوش مصنوعي جديد متا، تماشاي برخي خروجي‌هاي آن است. ويدئوهايي که در ادامه مشاهده مي‌کنيد، همگي با Make-A-Video متا توليد شده‌اند. علاوه‌براين، دستور مورداستفاده براي ساخت اين ويدئوها زير آن‌ها شرح داده شده است. بااين‌حال، اين ويدئوها ازطرف متا دراختيار ورج قرار داده شده است و فعلاً هيچ‌کس امکان دسترسي مستقيم به ابزار هوش مصنوعي جديد اين شرکت را ندارد. اين يعني امکان دارد غول رسانه‌هاي اجتماعي جهان، بهترين نتيجه‌هاي به‌دست آمده از هوش مصنوعي جديد خود را ارائه کرده باشد.

توضيح ارائه‌شده براي ساخت اين ويدئو: يک زوج جوان درحال راه‌ رفتن زير باران شديد.

توضيح ارائه‌شده براي ساخت اين ويدئو: تک شاخ‌ها درحال دويدن در امتداد ساحل.

توضيح ارائه‌شده براي ساخت اين ويدئو: يک خرس عروسکي درحال نقاشي پرتره.

اگرچه واضح است که ويدئوهاي فوق با رايانه توليد شده‌اند، اما خروجي اين نوع مدل‌هاي هوش مصنوعي در آينده‌ي نزديک، به‌سرعت بهبود خواهد يافت. درمقام مقايسه، ابزارهاي توليد تصوير مبتني‌بر هوش مصنوعي فقط طي چندسال، از ايجاد تصاوير نامفهوم به مرحله‌اي رسيده‌اند که حالا عکس‌هاي واقعي و با کيفيتي توليد مي‌کنند. اگرچه با توجه به پيچيدگي بسيار زياد موضوع، احتمال دارد سرعت پيشرفت ايجاد ويدئو با هوش مصنوعي کندتر باشد، اما جايزه‌ي توليد يک‌پارچه‌ي ويدئو باعث انگيزه‌ي بسياري از مو?سسات و شرکت‌ها خواهد شد تا منابع درخورتوجهي را روي اين پروژه سرمايه‌گذاري کنند.

متا در پست وبلاگي خود پس از معرفي Make-A-Video، خاطرنشان مي‌کند که ابزارهاي توليد ويدئو مبتني‌بر هوش مصنوعي مي‌توانند براي توليدکنندگان محتوا و هنرمندان بسيار ارزشمند باشند، اما مثل مدل‌هاي تبديل متن به عکس، چشم‌اندازهاي نگران‌کننده‌اي درمورد ابزار تبديل متن به ويدئو نيز وجود دارد. خروجي اين فناوري مي‌تواند براي اطلاعات نادرست، تبليغات و به‌احتمال زياد، براساس آنچه در سيستم‌هاي تصويري مبتني‌بر هوش مصنوعي و ديپ‌فيک ديده‌ايم، براي توليد هرزه‌نگاري يا آزار و اذيت و ارعاب مورد سواستفاده قرار گيرد.

متا مي‌خواهد روي چگونگي ساخت سيستم‌هاي هوش مصنوعي جديد مثل ابزارهاي تبديل متن به ويدئو تمرکز کند و درحال‌حاضر مقاله‌اي درمورد مدل Make-A-Video منتشر کرده است. اين شرکت تصميم دارد نسخه‌اي از سيستم مذکور را ارائه دهد اما هيچ جزئياتي درمورد تاريخ يا چگونگي دسترسي به آن به‌اشتراک نگذاشته است.

البته متا تنها شرکتي نيست که روي ابزارهاي هوش مصنوعي توليد ويدئو کار مي‌کند. اوايل سال جاري گروهي از محققان دانشگاه Tsinghua و آکادمي هوش مصنوعي پکن (BAAI) مدل تبديل متن به ويدئو خود را با نام CogVideo معرفي کرد که اکنون دردسترس عموم قرار دارد. نمونه‌هايي از خروجي ابزار CogVideo در ادامه آورده شده است.

توضيح ارائه‌شده براي ساخت اين ويدئو: دلقک ماهي که در صخره‌هاي مرجاني شنا مي‌کند

توضيح ارائه‌شده براي ساخت اين ويدئو: سگي با لباس ابرقهرماني شنل قرمز، که در آسمان پرواز مي‌کند.

توضيح ارائه‌شده براي ساخت اين ويدئو: رباتي که در ميدان تايمز مي‌رقصد.

محققان متا در مقاله‌ي معرفي Make-A-Video خاطرنشان مي‌کنند که اين مدل درحال آموزش روي جفت‌تصاوير، زيرنويس‌ها و همچنين فيلم‌ها است. محتواي آموزشي از دومجموعه داده‌‌ (WebVid-10M و HD-VILA-100M) تهيه شده که جمعاً حاوي ميليون‌ها ويدئو و صدها هزار ساعت فيلم هستند. داده‌هاي ارائه‌شده براي آموزش اين مدل شامل ويدئوهايي است که سايت‌هايي مثل Shutterstock آن‌ها را ايجاد کرده‌اند.

محققان متا خاطرنشان مي‌کنند که محدوديت‌هاي فني مدل هوش مصنوعي تبديل متن به ويدئو آن‌ها فراتر از مشکلات کنوني مثل انيميشن‌هاي ناهمگون يا ايجاد کليپ‌هاي مبهم است. به‌عنوان مثال، روش‌هاي آموزشي آن‌ها نمي‌تواند اطلاعاتي که يک انسان از تماشاي ويدئو استنباط مي‌کند را ياد بگيرد. از ديگر مشکلات اين مدل مي‌توان به محدوديت در توليد ويدئوهاي طولاني‌تر از پنج‌ثانيه با صحنه‌ها و رويدادهاي متعدد و همچنين وضوح بالاتر اشاره کرد. Make-A-Video درحال‌حاضر 16 فريم ويدئو را با وضوح 64 در 64 پيکسل توليد مي‌کند که سپس با استفاده از يک مدل هوش مصنوعي مجزا، ابعاد آن‌ها را به 768 در 768 پيکسل ارتقا مي‌دهد.

تيم متا همچنين اعلام کرده است Make-A-Video مثل ساير مدل‌هاي هوش مصنوعي که براساس داده‌هاي جمع‌آوري‌شده از وب آموزش ديده‌اند، سوگيري‌هاي اجتماعي و احتمالاً اغراق‌آميز و موارد مضر را آموخته است. اين سوگيري‌ها در مدل‌هاي تبديل متن به تصوير، اغلب تعصبات اجتماعي را تقويت مي‌کنند. بااين‌حال نمي‌توان گفت مدل متا بدون دسترسي آزاد، چه سوگيري‌هاي را آموخته است.

متا مي‌گويد اين تحقيقات را به‌همراه نتايج هوش مصنوعي جديد خود، با عموم کاربران به‌اشتراک خواهد گذاشت و اين شرکت به استفاده از چارچوب هوش مصنوعي براي اصلاح و تکامل رويکرد خود در اين فناوري نوظهور ادامه خواهد داد.

برنامه «Trusted Tester» گوگل: پیکسل‌های آینده در دستان طرفداران

معرفی گوشی‌های پرچمدار Vivo X300 و X300 Pro

بررسی آیفون ۱۷ پرو مکس؛ قهرمان استقامت یا غول بی‌احساس؟

۵ نکته مهم درباره آیفون ایر که احتمالا نمی‌دانید

اپیلوگ SN Operator برای پیش‌خرید فردا آماده می‌شود

بازگشت کنترل با ژست‌های حرکتی به Pixel Watch 4

مروری بر عینک‌های واقعیت افزوده Xreal One و Viture Luma Pro

معرفی درایو SSD قابل حمل T-Create Expert P35S با قابلیت نابودی…

رونمایی از جاروبرقی رباتیک DJI Romo: طراحی شفاف و ناوبری پیشرفته

افشاگری‌ها درباره افزونه Honey پی‌پال؛ کلاهبرداری، نقض حریم خصوصی و شکایت…

مشکل Project Indigo ادوبی با دوربین سلفی آیفون ۱۷

قابلیت جدید کروم: غیرفعال‌سازی خودکار نوتیفیکیشن‌های وب‌سایت‌های نادیده گرفته شده

شکارچیان باگ: چگونه با پیدا کردن حفره‌های امنیتی درآمد نجومی کسب…

اپل در WWDC از قابلیت ترجمه پیام‌ و تماس‌ با هوش…

تصاویر آخرالزمانی از هتل متروکه‌ای که طبیعت آن را پس گرفته…

داستان برند لومیکس؛ انقلاب در دنیای عکاسی دیجیتال به سبک پاناسونیک

افتتاح خانه لوسی کاشان همزمان با برگزاری دو نمایشگاه عکس

دوربین فوجی فیلم Instax Mini Evo با قابلیت ارسال تصاویر به…

عکاسی پرتره چیست؛ هر آنچه برای شروع باید بدانید

هوش مصنوعی جدید متا می‌تواند متن را به ویدیو تبدیل کند

برنامه‌ها

مکالمه صوتی با بینگ چت در نسخه دسکتاپ ممکن شد

استیو وزنیاک: هوش مصنوعی تسلا شما را به کشتن می‌دهد

چرا ناوهای هواپیمابر با صدها هزار تن وزن واژگون نمی شوند؟

عکاسی پرتره چیست؛ هر آنچه برای شروع باید بدانید

داغ‌ترین اخبار

عملکرد فوق‌العاده هوش مصنوعی در شبیه‌سازی چهره کودکی سلبریتی‌ها را ببینید

ال‌جی از اسپیکر StanbyME رونمایی کرد؛ ظاهری خاص با قیمت 200...

احتمال اضافه‌شدن سنسور دمای بدن به اپل واچ سری 8

تراشه پرچمدار اگزینوس 2400 معرفی شد؛ 70 درصد سریع‌تر با پشتیبانی...

منتخب سردبیر

نشت اطلاعات نرم‌افزاری اپل: افشای آیمک آینده با تراشه M5 مکس

اپیلوگ SN Operator برای پیش‌خرید فردا آماده می‌شود

اوپن‌ای‌آی در جستجوی رئیس آمادگی برای مقابله با خطرات فاجعه‌بار هوش...

مطالب محبوب

الگوریتم هوش مصنوعی جدید متا

امکان انتقال حیوانات خانگی از دنیای واقعی به متاورس فراهم می‌شود

ردیاب جدید هدست Vive Focus 3

دسته‌های محبوب