مایکروسافت از سه مدل هوش مصنوعی برای تولید صدا و عکس رونمایی کرد
این مدلها میتوانند گفتار را به متن تبدیل و صدا و تصویر تولید کنند.
مایکروسافت بهتازگی از سه مدل هوش مصنوعی پیشرفته و مقرونبهصرفه پرده برداشت؛ کاربرد اصلی این مدلها تبدیل گفتار به متن، تولید صدا و تولید عکس است. این مدلها نشاندهنده جاهطلبی مایکروسافت برای رقابت مستقیم با OpenAI، گوگل و دیگر آزمایشگاههای پیشرفته است.
به گزارش دیجیاتو، سه مدل جدید MAI-Transcribe-1 ،MAI-Voice-1 و MAI-Image-2 هستند و اکنون از طریق Microsoft Foundry و MAI Playground در دسترس قرار دارند.
هر کدام از این مدلها کاربرد خاصی دارند:
- MAI-Transcribe-1 : تبدیل گفتار به متن با دقت بیسابقه در ۲۵ زبان و سرعت ۲.۵ برابر سریعتر از نسخه فعلی Azure Fast.
- MAI-Voice-1 : تولید صدای طبیعی و حفظ هویت گوینده در محتوای طولانی، با قابلیت ساخت صدای سفارشی فقط با چند ثانیه نمونه صوتی.
- MAI-Image-2 : تولید تصاویر با سرعت دو برابر نسبت به نسل قبلی و امکان استفاده در Bing و PowerPoint.
معرفی مدلهای جدید مایکروسافت
MAI-Transcribe-1 در آزمون FLEURS، کمترین نرخ خطای کلمه (WER) را در میان ۲۵ زبان برتر مورد استفاده محصولات مایکروسافت ثبت کرده است. این مدل در تمام زبانها از Whisper-large-v3 اوپنایآی پیشی گرفته و در بسیاری از زبانها گوگل و مدلهای دیگر را هم پشت سر گذاشته است.
MAI-Voice-1 رقیب جدی مدلهای ElevenLabs و Resemble AI است و میتواند صداهای مختلفی تولید کند؛ هزینه آن نیز ۲۲ دلار برای هر میلیون کاراکتر است. MAI-Image-2 نیز تولید تصاویر را سریعتر کرده و با قیمت ۵ دلار برای هر میلیون توکن ورودی متن و ۳۳ دلار برای هر میلیون توکن تصویر ارائه میشود.
مایکروسافت پیشتر با OpenAI قراردادی داشت که در آن متعهد شده بود مدلهای خود را توسعه ندهد. اکنون پس از بازنگری در این قرارداد، مایکروسافت توانست بهطور مستقل به توسعه مدلهای هوش مصنوعی پیشرفته خود بپردازد.
یکی از نکات قابلتوجه این است که این مدلها با تیمهای کوچک (کمتر از ۱۰ نفر) ساخته شدهاند. این رویکرد هزینهها را کاهش میدهد و نشان میدهد که توسعه هوش مصنوعی پیشرفته لزوماً به هزاران پژوهشگر و میلیاردها دلار هزینه نیاز ندارد.