آیا جمینی گوگل واقعا بهتر از چت جی پی تی است؟

با داغ شدن رقابت برای تسلط بر فضای هوش مصنوعی جمینی در حالت حرکت از مدل زبان بزرگ چت جی پی تی (Chat GPT) به سوی مدل زبان بزرگ هوش مصنوعی چند وجهی می‌باشد که دارای قابلیت‌هایی در درک زبان، صدا، کد و ویدیو است.

فرارو- گوگل دیپ مایند اخیرا جمینی (Gemini) را معرفی کرده که مدل جدید هوش مصنوعی برای رقابت با چت جی پی تی (Chat GPT) محسوب می‌شود. هر دو مدل نمونه‌هایی از "هوش مصنوعی مولد" هستند که یاد می‌گیرند الگو‌هایی از اطلاعات ورودی را برای تولید داده‌های جدید (تصاویر، کلمات یا رسانه‌های دیگر) بیابند، با این حال چت جی پی تی بر یک مدل زبان بزرگ (LLM) متمرکز است.

به گزارش فرارو به نقل از کانورسیشن، چت جی پی تی یک برنامه وب برای مکالمات می‌باشد که مبتنی بر شبکه عصبی معروف به GPT (آموزش داده شده بر روی مقادیر بسیار زیاد متن) است. گوگل نیز یک برنامه وب مکالمه به نام "بارد" (Bard) را ساخته که بر اساس مدلی به نام (LaMDA) (آموزش داده شده بر روی گفتگو) است. گوگل اکنون این برنامه را براساس جمینی (Gemini) ارتقا می‌دهد.

آن چه جمینی را از مدل‌های هوش مصنوعی مولد قبلی متمایز می‌سازد آن است که یک مدل چند وجهی می‌باشد. این بدان معناست که جمینی به طور مستقیم با چندین حالت ورودی و خروجی کار می‌کند: علاوه بر پشتیبانی از ورودی و خروجی متن از تصاویر، صدا و ویدئو نیز پشتیبانی می‌کند . بر این اساس نام اختصاری جدیدی در حال ظهور است: LMM (مدل چند وجهی بزرگ) که نباید با LLM اشتباه گرفته شود.

شرکت Open AI مدلی به نام GPT-۴Vision را معرفی کرده که می‌تواند با تصاویر، صدا و متن نیز کار کند. با این وجود، این یک مدل کاملا چند وجهی به روشی که جمینی وعده داده نیست .

برای مثال، در حالی که چت جی پی تی - ۴ (Chat GPT-۴) که توسط GPT-۴V تغذیه می‌شود می‌تواند با ورودی‌های صوتی کار کند و خروجی‌های گفتاری تولید کند، این کار با تبدیل گفتار به متن در ورودی با استفاده از مدل یادگیری عمیق دیگری به نام Whisper انجام می‌شود. چت جی پی تی - ۴ همچنین متن را با استفاده از مدلی متفاوت در خروجی به گفتار تبدیل می‌کند به این معنی که خود GPT-۴V صرفا با متن کار می‌کند.

به همین ترتیب چت جی پی تی - ۴ (ChatGPT-۴) می‌تواند تصاویر را تولید کند، اما این کار را با تولید پیام‌های متنی انجام می‌دهد که به یک مدل یادگیری عمیق جداگانه به نام Dall-E ۲ منتقل می‌شوند که توضیحات متن را به تصاویر تبدیل می‌کند.

در مقابل، گوگل جمینی را به گونه‌ای طراحی کرد که "چند وجهی بومی" باشد بدان معنا که مدل اصلی به طور مستقیم طیفی از انواع ورودی (صوت، تصاویر، ویدئو و متن) را کنترل می‌کند و می‌تواند آن‌ها را نیز به طور مستقیم خروجی دهد .

تمایز بین این دو رویکرد ممکن است موردی آکادمیک به نظر برسد، اما مهم است. نتیجه گیری کلی از گزارش فنی گوگل و سایر آزمایش‌های کیفی تا به امروز این است که نسخه عمومی فعلی جمینی به نام Gemini ۱.۰ Pro به طور کلی به خوبی GPT-۴ نیست و از نظر قابلیت‌ها بیش‌تر شبیه به GPT ۳.۵ می‌باشد.

گوگل همچنین نسخه قدرتمندتری از جمینی را به نام Gemini ۱.۰ Ultra معرفی کرد و نتایجی را ارائه نمود که نشان می‌دهد قدرتمندتر از GPT-۴ است . با این وجود، ارزیابی این موضوع به دو دلیل دشوار است. دلیل اول آن که گوگل هنوز Ultra را منتشر نکرده بنابراین، در حال حاضر نمی‌توان نتایج را به طور مستقل مورد تایید قرار داد.

دلیل دومی که نشان می‌دهد چرا ارزیابی ادعا‌های گوگل دشوار می‌باشد آن است که آن شرکت تصمیم گرفت یک ویدئوی تا حدی فریبنده منتشر کند. برای مثال، جمینی از قبل چند کار خاص را یاد گرفته بود مانند ترفند سه فنجان و توپ که در آن ردیابی می‌کند که توپ زیر کدام فنجان است. برای این کار دنباله‌ای از تصاویر ثابت ارائه شده بود که در آن دست‌های مجری بر روی فنجان‌های در حال تعویض است.

آینده امیدوار کننده

علیرغم تمام این موارد جمینی و مدل‌های چندوجهی بزرگ گامی رو به جلو برای هوش مصنوعی مولد هستن د. این به دلیل قابلیت‌های آینده آنان و هم چنین به دلیل چشم انداز رقابتی ابزار‌های هوش مصنوعی است. GPT-۴ بر روی حدود ۵۰۰ میلیارد کلمه از تمام متن‌های با کیفیت خوب و در دسترس عموم آموزش داده شد.

عملکرد مدل‌های یادگیری عمیق عموما با افزایش پیچیدگی مدل و مقدار داده‌های آموزشی هدایت می‌شود. این وضعیت منجر به طرح این پرسش شده که چگونه می‌توان به پیشرفت‌های بیش تری دست یافت، زیرا تقریبا داده‌های آموزشی جدید برای مدل‌های زبان به اتمام رسیده است. با این وجود، مدل‌های چندوجهی ذخایر جدید عظیمی از داده‌های آموزشی را در قالب تصاویر، صدا و فیلم باز می‌کنند.

ابزار‌های مبتنی بر هوش مصنوعی مانند جمینی که می‌توانند به طور مستقیم بر روی همه این داده‌ها آموزش ببینند احتمالا در آینده قابلیت‌های بسیار بیش تری خواهند داشت . هم چنین، ایجاد چشم انداز رقابتی هوش مصنوعی انسان را هیجان زده می‌سازد. در سال گذشته علیرغم ظهور بسیاری از مدل‌های هوش مصنوعی مولد مدل‌های GPT ساخته شده توسط Open AI غالب بوده اند و سطحی از عملکرد را نشان می‌دهند که سایر مدل‌ها قادر به نزدیک شدن به آن نبوده اند.

جمینی گوگل نشان دهنده ظهور یک رقیب بزرگ است که به پیشبرد این چشم انداز کمک می‌کند. البته Open AI تقریبا به طور قطع بر روی GPT-۵ کار می‌کند و می‌توان انتظار داشت که چندوجهی نیز باشد و قابلیت‌های جدید قابل توجهی را نشان دهد. هم چنین، برخی از ویژگی‌های پیاده سازی جمینی دوست داشتنی هستند. برای مثال، گوگل نسخه‌ای به نام "جمینی نانو" (Gemini Nano) را معرفی کرده که بسیار سبک‌تر است و می‌تواند به طور مستقیم بر روی گوشی‌های تلفن همراه هوشمند اجرا شود.

از میان اخبار

رونمایی از ربات غول‌پیکر سرنشین‌دار با قابلیت تغییر شکل

بیشتر بدانید:

بازدید از صفحه اول ارسال به دوستان

شما قبلا این خبر را لایک کرده‌اید .

ارسال نظرات

قیمت روز طلا و دلار (۲ نظر)
قیمت موبایل‌ | جدول کامل قیمت گوشی‌های بازار امروز (۱ نظر)
قیمت روز خودرو | جدول جدید امروز (۱ نظر)

خط داغ

ادعای ونس: مذاکرات ایران و آمریکا در حال پیشرفت است
«جی‌دی ونس» معاون رئیس‌جمهور آمریکا شامگاه چهارشنبه در سخنانی ادعا کرد: «مذاکرات بین ایران و ایالات متحده در حال…
وصیت‌نامه ترامپ برای ونس!
یکی از مقامات کاخ سفید روز چهارشنبه در مصاحبه‌ای با برنامه «پاد فورس وان» فاش کرد که «دونالد ترامپ»، رئیس‌جمهور آمریکا…
افشای سفر مخفیانه نتانیاهو به امارات در میانه جنگ ایران
رسانه‌های اسرائیلی از سفر محرمانه بنیامین نتانیاهو به امارات در میانه جنگ علیه ایران خبر دادند؛ سفری که به گفته منابع…
واکنش عراقچی پس از حمله کویت به شناور ایرانی
وزیر امور خارجه ایران نوشت: کویت به‌صورت غیرقانونی به یک شناور ایرانی در خلیج فارس حمله کرده و ۴ تن از اتباع ما را…
گزارش اختصاصی فرارو از آغاز سفر عراقچی به هند
عباس عراقچی وارد هند شد. وی در این سفر علاوه بر شرکت در اجلاس بریکس دیدارهایدوجانبه نیز خواهد داشت.
چرا وزیر امورخارجه نروژ به ایران سفر کرد؟
سفر غافلگیرکننده وزیر امور خارجه نروژ به ایران سبب شده برخی گمانه زنی‌ها بر این باشد که این کشور می‌خواهد نقش…
ترکیب احتمالی ایران در جام جهانی ۲۰۲۶
سایت گل در گزارشی درباره تیم ملی ایران، به نفرات احتمالی اعزامی به جام جهانی پرداخت و ترکیب تیم ملی در جام جهانی را…
تصاویر؛ درخشش تصویر کولبرها در جهان
یک عکاس ایرانی، با مجموعه‌ای مستند از زندگی کولبران در ارتفاعات مرزی ایران و عراق موفق شد جایزه اصلی بخش عکاسی مستند…
ادعای سی‌ان‌ان:
عبور دو نفتکش ایرانی و چینی از محاصره آمریکا در تنگه هرمز
داده های ردیابی دریایی از عبور دو نفتکش ایرانی و چینی از محاصره آمریکا در تنگه هرمز خبر دادند.
تصاویر؛ استقبال از ترامپ در فرودگاه پکن
دونالد ترامپ، رئیس جمهور آمریکا در بدو ورود به فرودگاه پکن مورد استقبال هان ژنگ، معاون رئیس جمهور چین قرار گرفت. ۳۰۰…
ترامپ وارد پکن شد/ جزئیات برنامه رئیس جمهور آمریکا در سفر به چین
دونالد ترامپ امروز (چهارشنبه) برای دیدار با رهبر چین، در دوران حساسی که جهان نگران جنگ، تجارت و هوش مصنوعی است، وارد…
فروش گوشی در ایران به دو برابر قیمت واقعی
توقف واردات موبایل از ابتدای سال باعث افزایش قیمت موبایل شده است
تهرانی‌ها معادل دو سد لتیان آب پس‌انداز کردند
کاهش ۲۵ لیتری سرانه مصرف روزانه آب توسط ۱۵ میلیون شهروند تهرانی در سال گذشته، به صرفه‌جویی ۱۳۶ میلیون مترمکعبی در…
دستور پزشکیان به وزیر کشاورزی برای کنترل قیمت‌ها
رئیس‌جمهور ضمن قدردانی از نیروهای وزارت جهاد کشاورزی، از آن‌ها خواست تا تمام توانشان را برای کنترل قیمت‌ها به‌کار بگی…
ادعای جدید درباره سفر ترامپ به چین/ پای ایران درمیان است؟
یک رسانه آمریکایی مدعی در خواست ترامپ از چین مبنی بر اعمال فشار به ایران برای بازگشایی تنگه هرمز شد.
گزینه نهایی تصدی وزارت دفاع چه کسی است؟
معاون ارتباطات و اطلاع‌رسانی دفتر رئیس‌جمهور از معرفی احتمالی سرپرست فعلی وزارت دفاع به‌عنوان گزینه نهایی برای…
تعرفه پیامک فارسی و انگلیسی در ۱۴۰۵
براساس مصوبه جدید کمیسیون تنظیم مقررات ارتباطات تعرفه هر پیامک فارسی برای سیم‌کارت‌های اعتباری ۱۱۶ ریال است
لیست تیم ملی بلژیک برای جام جهانی منتشر شد؛ لوکاکو علیه ایران
کادرفنی تیم ملی فوتبال بلژیک لیست ابتدایی بازیکنان این تیم برای حضور در جام جهانی ۲۰۲۶ را اعلام کرد.
نماینده مجلس: آمریکا احتمالاً قصد تصرف برخی از جزایر جنوب را دارد
کامران غضنفری، نماینده مجلس شورای اسلامی گفت: شواهد و قرائن نشان می‌دهد که آمریکا و اسرائیل بنای بر یک عملیات گسترده…
نشست بریکس در سایه حضور همزمان ایران و امارات
تهران از هند، رئیس دوره‌ای آینده بریکس، خواسته اجماعی برای محکومیت حملات آمریکا و اسرائیل شکل دهد، اما نزدیکی برخی…
رونمایی از ربات غول‌پیکر سرنشین‌دار با قابلیت تغییر شکل
ویدیویی از یک ربات غول‌پیکر سرنشین‌دار که قابلیت تغییر شکل دارد، در شبکه‌های اجتماعی مورد توجه قرار گرفته است. این…
پایان استفاده رایگان از مترو
قیمت بلیط مترو بعد از وقفه ۵۰ روزه در سال جدید افزایش پیدا می‌کند. هزینه ورود به مترو با کارت پنج هزار و ۱۶۰ تومان است…
ساعت کاری بانک‌ها تغییر کرد
ساعت کاری بانک‌ها از روز شنبه ۲۶ اردیبهشت تا پایان شهریور، از ساعت ۷ تا ۱۳ ظهر خواهد بود
قیمت طلا و سکه امروز چهارشنبه ۲۳ اردیبهشت
قیمت هر گرم طلا ۱۸ عیار امروز به ۱۹ میلیون ۶۳۳ هزار تومان رسید و سکه امامی قریب ۱۹۹ میلیون قیمت خورد
نقره دیجیتال در ایران ارزش سرمایه‌گذاری دارد؟
پلتفرم‌های معروف و سرشناس به شکل جدی وارد حوزه خریدوفروش نقره دیجیتال شده‌اند

گزارش و تحلیل