ترنج موبایل
کد خبر: ۹۵۹۸۳۰

مایکروسافت از سه مدل هوش مصنوعی برای تولید صدا و عکس رونمایی کرد

مایکروسافت از سه مدل هوش مصنوعی برای تولید صدا و عکس رونمایی کرد

این مدل‌ها می‌توانند گفتار را به متن تبدیل و صدا و تصویر تولید کنند.

مایکروسافت به‌تازگی از سه مدل هوش مصنوعی پیشرفته و مقرون‌به‌صرفه پرده برداشت؛ کاربرد اصلی این مدل‌ها تبدیل گفتار به متن، تولید صدا و تولید عکس است. این مدل‌ها نشان‌دهنده جاه‌طلبی مایکروسافت برای رقابت مستقیم با OpenAI، گوگل و دیگر آزمایشگاه‌های پیشرفته است.

به گزارش دیجیاتو، سه مدل جدید MAI-Transcribe-1 ،MAI-Voice-1 و MAI-Image-2 هستند و ‌اکنون از طریق Microsoft Foundry و MAI Playground در دسترس قرار دارند.

هر کدام از این مدل‌ها کاربرد خاصی دارند:

  • MAI-Transcribe-1 : تبدیل گفتار به متن با دقت بی‌سابقه در ۲۵ زبان و سرعت ۲.۵ برابر سریع‌تر از نسخه فعلی Azure Fast.
  • MAI-Voice-1 : تولید صدای طبیعی و حفظ هویت گوینده در محتوای طولانی، با قابلیت ساخت صدای سفارشی فقط با چند ثانیه نمونه صوتی.
  • MAI-Image-2 : تولید تصاویر با سرعت دو برابر نسبت به نسل قبلی و امکان استفاده در Bing و PowerPoint.

معرفی مدل‌های جدید مایکروسافت

MAI-Transcribe-1 در آزمون FLEURS، کمترین نرخ خطای کلمه (WER) را در میان ۲۵ زبان برتر مورد استفاده محصولات مایکروسافت ثبت کرده است. این مدل در تمام زبان‌ها از Whisper-large-v3 اوپن‌ای‌آی پیشی گرفته و در بسیاری از زبان‌ها گوگل و مدل‌های دیگر را هم پشت سر گذاشته است.

MAI-Voice-1 رقیب جدی مدل‌های ElevenLabs و Resemble AI است و می‌تواند صدا‌های مختلفی تولید کند؛ هزینه آن نیز ۲۲ دلار برای هر میلیون کاراکتر است. MAI-Image-2 نیز تولید تصاویر را سریع‌تر کرده و با قیمت ۵ دلار برای هر میلیون توکن ورودی متن و ۳۳ دلار برای هر میلیون توکن تصویر ارائه می‌شود.

مایکروسافت پیش‌تر با OpenAI قراردادی داشت که در آن متعهد شده بود مدل‌های خود را توسعه ندهد. اکنون پس از بازنگری در این قرارداد، مایکروسافت توانست به‌طور مستقل به توسعه مدل‌های هوش مصنوعی پیشرفته خود بپردازد.

یکی از نکات قابل‌توجه این است که این مدل‌ها با تیم‌های کوچک (کمتر از ۱۰ نفر) ساخته شده‌اند. این رویکرد هزینه‌ها را کاهش می‌دهد و نشان می‌دهد که توسعه هوش مصنوعی پیشرفته لزوماً به هزاران پژوهشگر و میلیاردها دلار هزینه نیاز ندارد.

ارسال نظرات
خط داغ