این هوش مصنوعی روی دست مدل های دیگر بلند می شود
به گزارش همشهری آنلاین به نقل از نیواطلس، سیستمهای هوش مصنوعی در چند سال گذشته بسیاری از امور روزانه را برای ما ساده کرده اند اما در حال حاضر بسیاری از مردم نگران این هستند که زودتر از موعد به مرتع برده شوند و الگوریتمها جایگزین آنها شوند.
در یکی دو سال اخیر شاهد گجت های هوشمند نسبتا محدودی بوده ایم که به دستیارهای قدرتمند روزمره و ابزارهای بهره وری حیاتی تبدیل شده اند. حتی مدل هایی وجود دارند که می توانند جلوه های صوتی واقعی را برای کلیپ های ویدیویی بی صدا ایجاد کنند و فیلم های خیره کننده از پیام های متنی بسازند. VASA-1 متعلق به مایکروسافت جهش بزرگ دیگری به نظر می رسد.
پس از آموزش مدل بر روی فیلمی از حدود 6هزار چهره واقعی در حال صحبت از مجموعه داده VoxCeleb2، این فناوری قادر به تولید ویدیوی واقعی ترسناک است که در آن سوژه جدید متحرک نه تنها قادر به همگام سازی دقیق لب با یک آهنگ صوتی ارائه شده است، بلکه حالات مختلف صورت و حرکات طبیعی سر نیز منطبق بر واقعیت است.
شاید این مدل شباهت زیادی به مدل هوش مصنوعی Audio2Video از مؤسسه رایانههای هوشمند علیبابا باشد که چند ماه پیش ظاهر شد، اما مدل مایکروسافت واقعیتر و دقیقتر است. طبق گزارشها، VASA-1 قادر به تولید ویدیوهای همگامسازی شده با رزولوشن 512×512 پیکسل با سرعت 40 فریم در ثانیه، با تاخیر بسیار کم است.