متا هوش مصنوعی جدیدی را توسعه داده که عملکردی شبیه به DALL-E دارد و قادر به تولید ویدیو از طریق نوشتن متن است. تبدیل متن به عکس یکی از اتفاقات هیجان انگیز در زمینهی هوش مصنوعی میباشد. اما چیزی که این روزها بیشتر خبرساز شده، تبدیل متن به ویدیو با کمک هوش مصنوعی است. تیمی از مهندسان هوش مصنوعی متا از تکنولوژی جدیدی به نام Make-A-Video رونمایی کردند. همانطور که از نامش پیداست، این فناوری به کاربران اجازه میدهد تا توصیف تقریبی از یک صحنه را تایپ کرده و ویدیوی کوتاهی مطابق با متن تولید کنند. این ویدیوها با وضوح مصنوعی و تاری مواجه هستند اما با این حال، پیشرفت بزرگی در این زمینه محسوب میشوند.
توضیحات بیشتر در خصوص مدل جدید هوش مصنوعی (AI) متا
متا در یک پست وبلاگی خبری از تکنولوژی جدید Make-A-Video منتشر کرد و گفت:
“تحقیقات مولد هوش مصنوعی با دادن ابزارهایی به مردم برای ایجاد آسان و سریع محتوای جدید، بیان خلاقانهای را به جلو سوق میدهد. تنها با چند کلمه یا خط متن، Make-A-Video میتواند تخیل را زنده کند و ویدیوهای منحصر به فردی پر از رنگها و مناظر زنده بسازد.”
مارک زاکربرگ مدیر عامل متا نیز در این باره گفته است:
“تولید ویدیو بسیار سختتر از عکس است، زیرا سیستم در این شرایط علاوه بر تولید صحیح هر پیکسل، بیاید تغییر پیکسلها را در طول زمان پیش بینی کند.”
این کلیپها حداکثر پنج ثانیه و فاقد صدا هستند، اما طیف وسیعی از درخواستها را پشتیبانی میکنند. البته باید توجه داشت که هنوز دسترسی به این فناوری وجود ندارد و متا این ویدیوها را شخصاً منتشر کرده است. اگرچه در حال حاضر خروجی این ویدیوها کیفیت مصنوعی دارند، اما در آیندهای نزدیک بهبود خواهند یافت.
فناوری Make-A-Video میتواند ابزار مفیدی برای تولید ویدیو توسط سازندگان و طراحان باشد. اما از طرفی با وارد کردن اطلاعات نادرست، ممکن است به سواستفاده و آزار و اذیت نیز ختم شود. باید منتظر بمانیم تا از ویژگیهای منحصر به فرد این فناوری در جهت جلوگیری از سو استفاده باخبر شویم.
فناوری CogVideo پیش از Make-A-Video قابلیت تبدیل متن به ویدیو را ممکن ساخت
پیش از اینکه متا در این زمینه اقدامی کند، گروهی از محققان دانشگاه Tsinghua و آکادمی هوش مصنوعی پکن (BAAI)، در اوایل سال جاری از تکنولوژی تبدیل متن به ویدیو با نام CogVideo رونمایی کردند. این فناوری در دسترس عموم قرار دارد. میتوانید در ویدیوی زیر، نمونهای از ویدیوی تولید شده توسط CogVideo را تماشا کنید.
محققان متا در تلاشند تا این فناوری جفت تصاویر، زیرنویسها و همچنین فیلمها را آموزش ببیند. محتوای آموزشی از دو مجموعه دیتا (WebVid-10M و HD-VILA-100M) شامل میلیونها ویدیو تشکیل میشود که در مجموع هزار ساعت فیلم است. این دادهها شامل فیلمهای ویدئویی هستند که سایتهایی مانند Shutterstock آنها را ایجاد کردهاند.
فناوری Make-A-Video در کنار پیشرفت چشمگیرش، معایبی نیز دارد. برای مثال، روشهای آموزشی آنها نمیتواند اطلاعاتی که یک انسان با تماشای ویدیو بدست میآورد را یاد بگیرد. همچنین قادر به تولید ویدیو بیشتر از 5 ثانیه با وضوح بهتر نیست. Make-A-Video در حال حاضر 16 فریم ویدئو با وضوح 64×64 پیکسل تولید میکند که با استفاده از یک مدل هوش مصنوعی جداگانه به وضوح 768×768 پیکسل میرسد.
قرار بر این است که تیم Meta تحقیقات و نتایج فناوری Make-A-Video را برای مشاهدهی بازخورد مردم به اشتراک بگذارد. هنوز تاریخ دقیقی برای اشتراک گذاری این تکنولوژی و عرضهی آن اعلام نشده است.
منبع خبر: