خبری

Make-A-Video متا تبدیل متن به ویدیو را ممکن می‌سازد

مدل جدید هوش مصنوعی متا

متا هوش مصنوعی جدیدی را توسعه داده که عملکردی شبیه به DALL-E دارد و قادر به تولید ویدیو از طریق نوشتن متن است. تبدیل متن به عکس یکی از اتفاقات هیجان انگیز در زمینه‌ی هوش مصنوعی می‌باشد. اما چیزی که این روزها بیشتر خبرساز شده، تبدیل متن به ویدیو با کمک هوش مصنوعی است. تیمی از مهندسان هوش مصنوعی متا از تکنولوژی جدیدی به نام Make-A-Video رونمایی کردند. همانطور که از نامش پیداست، این فناوری به کاربران اجازه می‌دهد تا توصیف تقریبی از یک صحنه را تایپ کرده و ویدیوی کوتاهی مطابق با متن تولید کنند. این ویدیوها با وضوح مصنوعی و تاری مواجه هستند اما با این حال، پیشرفت بزرگی در این زمینه محسوب می‌شوند.

توضیحات بیشتر در خصوص مدل جدید هوش مصنوعی (AI) متا

متا در یک پست وبلاگی خبری از تکنولوژی جدید Make-A-Video منتشر کرد و گفت:

“تحقیقات مولد هوش مصنوعی با دادن ابزارهایی به مردم برای ایجاد آسان و سریع محتوای جدید، بیان خلاقانه‌ای را به جلو سوق می‌دهد. تنها با چند کلمه یا خط متن، Make-A-Video می‌تواند تخیل را زنده کند و ویدیوهای منحصر به فردی پر از رنگ‌ها و مناظر زنده بسازد.”

مارک زاکربرگ مدیر عامل متا نیز در این باره گفته است:

“تولید ویدیو بسیار سخت‌تر از عکس است، زیرا سیستم در این شرایط علاوه بر تولید صحیح هر پیکسل، بیاید تغییر پیکسل‌ها را در طول زمان پیش بینی کند.”

 

 

این کلیپ‌ها حداکثر پنج ثانیه و فاقد صدا هستند، اما طیف وسیعی از درخواست‌ها را پشتیبانی می‌کنند. البته باید توجه داشت که هنوز دسترسی به این فناوری وجود ندارد و متا این ویدیوها را شخصاً منتشر کرده است. اگرچه در حال حاضر خروجی این ویدیوها کیفیت مصنوعی دارند، اما در آینده‌ای نزدیک بهبود خواهند یافت.

فناوری Make-A-Video می‌تواند ابزار مفیدی برای تولید ویدیو توسط سازندگان و طراحان باشد. اما از طرفی با وارد کردن اطلاعات نادرست، ممکن است به سواستفاده و آزار و اذیت نیز ختم شود. باید منتظر بمانیم تا از ویژگی‌های منحصر به فرد این فناوری در جهت جلوگیری از سو استفاده باخبر شویم.

فناوری CogVideo پیش از Make-A-Video قابلیت تبدیل متن به ویدیو را ممکن ساخت

پیش از اینکه متا در این زمینه اقدامی کند، گروهی از محققان دانشگاه Tsinghua و آکادمی هوش مصنوعی پکن (BAAI)، در اوایل سال جاری از تکنولوژی تبدیل متن به ویدیو با نام CogVideo رونمایی کردند. این فناوری در دسترس عموم قرار دارد. می‌توانید در ویدیوی زیر، نمونه‌ای از ویدیوی تولید شده توسط CogVideo را تماشا کنید.

 

 

محققان متا در تلاشند تا این فناوری جفت تصاویر، زیرنویس‌ها و همچنین فیلم‌ها را آموزش ببیند. محتوای آموزشی از دو مجموعه دیتا (WebVid-10M و HD-VILA-100M) شامل میلیون‌ها ویدیو تشکیل می‌شود که در مجموع هزار ساعت فیلم است. این داده‌ها شامل فیلم‌های ویدئویی هستند که سایت‌هایی مانند Shutterstock آن‌ها را ایجاد کرده‌اند.

فناوری Make-A-Video در کنار پیشرفت چشمگیرش، معایبی نیز دارد. برای مثال، روش‌های آموزشی آن‌ها نمی‌تواند اطلاعاتی که یک انسان با تماشای ویدیو بدست می‌آورد را یاد بگیرد.‌ همچنین قادر به تولید ویدیو بیشتر از 5 ثانیه با وضوح بهتر نیست. Make-A-Video در حال حاضر 16 فریم ویدئو با وضوح 64×64 پیکسل تولید می‌کند که با استفاده از یک مدل هوش مصنوعی جداگانه به وضوح 768×768 پیکسل می‌رسد.

قرار بر این است که تیم Meta تحقیقات و نتایج فناوری Make-A-Video را برای مشاهده‌ی بازخورد مردم به اشتراک بگذارد. هنوز تاریخ دقیقی برای اشتراک گذاری این تکنولوژی و عرضه‌ی آن اعلام نشده است.

 

منبع خبر:

The Verge

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *