این هوش مصنوعی مایکروسافت عکس‌ها را سخنگو می‌کند

کارشناسان مایکروسافت با پیش‌بینی نگرانی‌هایی که ممکن است مردم داشته باشند، گفتند: «VASA-۱ به منظور ایجاد محتوایی که برای گمراه کردن یا فریب استفاده می‌شود طراحی نشده است. با این حال، مانند سایر تکنیک‌های مشابه تولید محتوا، همچنان می‌توان از آن برای جعل هویت انسان‌ها سوء استفاده کرد».

تاریخ انتشار: ۱۸:۵۵ - ۰۱ ارديبهشت ۱۴۰۳

به لطف ابزار هوش مصنوعی جدید مایکروسافت، مرز بین آنچه واقعی هست و نیست، روز به روز باریک‌تر می‌شود. این فناوری که VASA-۱ نام دارد، تصویری ثابت از چهره یک فرد را به یک کلیپ متحرک از صحبت کردن یا آواز خواندن او تبدیل می‌کند.

به گزارش روزیاتو، این غول فناوری ادعا می‌کند که حرکات لب «به‌طرز بی‌نظیری» با صدا هماهنگ می‌شوند تا به نظر برسد که سوژه زنده است. در واقع عملکرد VASA-۱ فراتر از تطبیق حرکات لب با صدا است و می‌تواند طیف گسترده‌ای از احساسات، ظرافت‌های چهره و حرکات طبیعی سر را نیز به تصویر بکشد و چهره‌های ساخته‌شده را واقعی‌تر نشان دهد.

در یک نمونه، شاهکار قرن شانزدهمی لئوناردو داوینچی، «مونالیزا»، با لهجه آمریکایی شروع به رپ کردن می‌کند.

علاوه‌براین، VASA-۱ روی ویدیوی تولیدشده کنترل دارد؛ به این معنا که کاربر می‌تواند جهت نگاه‌کردن شخصیت، مقیاس‌های مختلف فاصله سوژه از تصویر و حتی حالت احساسی آن‌ها را مشخص کند.

با این حال، مایکروسافت اذعان می‌کند که از آنجایی که این ابزار ممکن است برای جعل هویت انسان مورد سوء استفاده قرار گیرد، آن را برای عموم منتشر نخواهد کرد.

یکی دیگر از خطرات احتمالی کلاهبرداری است، زیرا کاربران آنلاین ممکن است به‌وسیله یک پیام جعلی از تصویر شخصی که به او اعتماد دارند گول بخورند.

مایکروسافت اذعان می‌کند که تکنیک‌های موجود هنوز با «اصالت چهره‌های طبیعی در حال حرف زدن» فاصله دارند، اما قابلیت‌های هوش مصنوعی به سرعت در حال رشد است.

به گفته محققان دانشگاه ملی استرالیا، چهره‌های جعلی ساخته شده توسط هوش مصنوعی واقعی‌تر از چهره انسان به نظر می‌رسند. این متخصصان هشدار می‌دهند که تصاویر هوش مصنوعی از افراد، دارای واقع‌گرایی افراطی یا هایپررئالیسم هستند؛ به این معنی که چهره‌ها تناسب بیشتری دارند و مردم این موضوع را به عنوان نشانه‌ای از واقعی‌بودن تلقی می‌کنند.

مطالعه دیگری توسط کارشناسان دانشگاه لنکستر نشان داد که چهره‌های جعلی ساخته‌شده توسط هوش مصنوعی قابل اعتمادتر به نظر می‌رسند، که این موضوع پیامد‌هایی برای حفظ حریم خصوصی آنلاین دارد.

در همین حال، OpenAI، خالق ربات معروف ChatGPT، ابزار ترسناک تبدیل متن به ویدیو سورا (Sora) خود را در ماه فوریه معرفی کرد که می‌تواند کلیپ‌های ویدیویی هوش مصنوعی فوق‌العاده واقعی را تنها بر اساس دستورالعمل‌های متنی کوتاه و توصیفی بسازد.

کارشناسان هشدار دادند که این موضوع می‌تواند کل صنایعی مانند تولید فیلم را از بین ببرد و منجر به افزایش ویدیو‌های دیپ فیک به‌ویژه در آستانه رویداد‌های مهم سیاسی مانند انتخابات ریاست جمهوری شود.

از میان اخبار