معرفی هوش مصنوعی گوگل جیمینی

در سال‌های اخیر، ظهور ابزارهای گفتگوی مبتنی بر هوش مصنوعی، نحوه تعامل ما با فناوری را متحول کرده است. یکی از جدیدترین بازیگران این عرصه، جمنای، پلتفرم مبتنی بر هوش مصنوعی گوگل است که کنجکاوی کاربران و کسب‌وکارها را برانگیخته است. در این مقاله، به بررسی عمیق چیستی جمنای، نحوه عملکرد آن و چرایی ایجاد موج در دنیای هوش مصنوعی خواهیم پرداخت.

جیمینی چیست؟

گوگل جیمینی — که قبلاً با نام بارد شناخته می‌شد — یک ابزار چت‌بات هوش مصنوعی (AI) است که توسط گوگل طراحی شده تا با استفاده از پردازش زبان طبیعی (NLP) و یادگیری ماشین، مکالمات انسانی را شبیه‌سازی کند. علاوه بر تکمیل جستجوی گوگل، جمنای می‌تواند در وب‌سایت‌ها، پلتفرم‌های پیام‌رسان یا برنامه‌ها ادغام شود تا پاسخ‌های واقعی و به زبان طبیعی به سؤالات کاربران ارائه دهد.

گوگل جمنای، خانواده‌ای از مدل‌های زبان بزرگ (LLM) هوش مصنوعی چندوجهی است که درک زبان، صدا، کد و ویدیو را دارد.

جمنای ۱.۰ در ۶ دسامبر ۲۰۲۳ معرفی شد و توسط واحد تجاری دیپ‌مایند گوگلِ آلفابت ساخته شده است که بر تحقیقات و توسعه‌ی پیشرفته‌ی هوش مصنوعی متمرکز است. از سرگئی برین، یکی از بنیانگذاران گوگل، در توسعه‌ی مدل‌های زبان بزرگ جمنای، در کنار سایر کارکنان گوگل، قدردانی شده است.

در زمان انتشار، جمنای پیشرفته‌ترین مجموعه‌ی مدل‌های زبان بزرگ در گوگل بود که قبل از تغییر نام بارد، آن را پشتیبانی می‌کرد و جایگزین مدل زبان Pathways (Palm 2) این شرکت شد. همانطور که در مورد Palm 2 نیز صادق بود، جمنای در چندین فناوری گوگل ادغام شد تا قابلیت‌های هوش مصنوعی مولد را ارائه دهد.

در ۱۱ دسامبر ۲۰۲۴، گوگل با معرفی یک نسخه‌ی آزمایشی از Flash 2.0 در استودیوی هوش مصنوعی گوگل و API ورتکس ای‌آی جمنای، نسخه‌ی به‌روز شده‌ای از مدل زبان بزرگ خود را با جمنای ۲.۰ منتشر کرد.

جمنای قابلیت‌های پردازش زبان طبیعی (NLP) را ادغام می‌کند که توانایی درک و پردازش زبان را فراهم می‌کند. جمنای همچنین برای درک پرسش‌ها و داده‌های ورودی استفاده می‌شود. این مدل قادر به درک و تشخیص تصاویر است و به آن امکان می‌دهد تصاویر پیچیده مانند نمودارها و شکل‌ها را بدون نیاز به تشخیص نوری کاراکتر (OCR) خارجی تجزیه و تحلیل کند. همچنین قابلیت‌های چندزبانه گسترده‌ای برای وظایف ترجمه و عملکرد در زبان‌های مختلف دارد.

برخلاف مدل‌های هوش مصنوعی قبلی گوگل، جمنای به‌طور ذاتی چندوجهی است، به این معنی که به‌صورت سرتاسری روی مجموعه‌داده‌هایی که انواع مختلف داده را در بر می‌گیرند، آموزش داده شده است. جمنای به عنوان یک مدل چندوجهی، توانایی‌های استدلال بین‌وجهی را ممکن می‌سازد. این بدان معناست که جمنای می‌تواند در میان دنباله‌ای از انواع مختلف داده ورودی، از جمله صدا، تصاویر و متن، استدلال کند. به عنوان مثال، جمنای می‌تواند یادداشت‌های دست‌نویس، نمودارها و دیاگرام‌ها را برای حل مسائل پیچیده درک کند. معماری جمنای از دریافت مستقیم متن، تصاویر، شکل موج‌های صوتی و فریم‌های ویدیو به عنوان دنباله‌های درهم پشتیبانی می‌کند.

جیمینی چگونه کار می‌کند؟

گوگل جمنای ابتدا با آموزش روی مجموعه‌ی عظیمی از داده‌ها کار می‌کند. پس از آموزش، مدل از چندین تکنیک شبکه‌ی عصبی برای درک محتوا، پاسخ به سؤالات، تولید متن و تولید خروجی استفاده می‌کند.

به طور خاص، مدل‌های زبان بزرگ جمنای از معماری شبکه‌ی عصبی مبتنی بر مدل ترانسفورمر استفاده می‌کنند. معماری جمنای برای پردازش دنباله‌های متنی طولانی در انواع مختلف داده، از جمله متن، صدا و ویدیو، بهبود یافته است. گوگل دیپ‌مایند از مکانیسم‌های توجه کارآمد در رمزگشای ترانسفورمر استفاده می‌کند تا به مدل‌ها در پردازش متون طولانی، که شامل روش‌های مختلف هستند، کمک کند.

مدل‌های جمنای روی مجموعه‌داده‌های چندوجهی و چندزبانه متنوع از متن، تصاویر، صدا و ویدیو با استفاده از فیلتر پیشرفته‌ی داده توسط گوگل دیپ‌مایند برای بهینه‌سازی آموزش، آموزش داده شده‌اند. از آنجایی که مدل‌های مختلف جمنای در پشتیبانی از خدمات خاص گوگل مستقر می‌شوند، فرآیند تنظیم دقیق هدفمندی وجود دارد که می‌تواند برای بهینه‌سازی بیشتر یک مدل برای یک مورد استفاده خاص استفاده شود. در طول هر دو مرحله‌ی آموزش و استنتاج، جمنای از استفاده از آخرین تراشه‌های واحد پردازش تانسور گوگل، TPU v5، که شتاب‌دهنده‌های سفارشی هوش مصنوعی بهینه شده برای آموزش و استقرار کارآمد مدل‌های بزرگ هستند، بهره می‌برد.

یک چالش کلیدی برای مدل‌های زبان بزرگ، خطر سوگیری و محتوای بالقوه سمی است. به گفته‌ی گوگل، جمنای تحت آزمایش ایمنی گسترده و کاهش خطراتی مانند سوگیری و سمیت قرار گرفته است تا درجه‌ای از ایمنی مدل زبان بزرگ را فراهم کند. برای اطمینان بیشتر از اینکه جمنای همانطور که باید کار می‌کند، مدل‌ها در برابر معیارهای آکادمیک که حوزه‌های زبان، تصویر، صدا، ویدیو و کد را در بر می‌گیرند، آزمایش شدند. گوگل به عموم اطمینان داده است که به فهرستی از اصول هوش مصنوعی پایبند است.

در زمان راه‌اندازی در ۶ دسامبر ۲۰۲۳، اعلام شد که جمنای از یک سری اندازه‌های مختلف مدل تشکیل شده است که هر کدام برای مجموعه‌ای خاص از موارد استفاده و محیط‌های استقرار طراحی شده‌اند. مدل Ultra بالاترین سطح است و برای وظایف بسیار پیچیده طراحی شده است. مدل Pro برای عملکرد و استقرار در مقیاس بزرگ طراحی شده است. از ۱۳ دسامبر ۲۰۲۳، گوگل دسترسی به جمنای پرو را در Google Cloud Vertex AI و Google AI Studio فراهم کرد. برای کد، نسخه‌ای از جمنای پرو برای پشتیبانی از فناوری کدنویسی هوش مصنوعی مولد Google AlphaCode 2 استفاده می‌شود.

مدل Nano برای موارد استفاده در دستگاه هدف قرار گرفته است. دو نسخه‌ی مختلف از جمنای نانو وجود دارد: Nano-1 یک مدل ۱.۸ میلیارد پارامتری است، در حالی که Nano-2 یک مدل ۳.۲۵ میلیارد پارامتری است. از جمله جاهایی که نانو در آن تعبیه شده است، گوشی هوشمند Google Pixel 8 Pro است.

گوگل بارد ابتدا چه زمانی منتشر شد؟

گوگل ابتدا بارد، چت‌بات مجهز به هوش مصنوعی خود را در ۶ فوریه ۲۰۲۳ با یک تاریخ انتشار مبهم معرفی کرد. دسترسی به بارد را در ۲۱ مارس ۲۰۲۳ باز کرد و از کاربران دعوت کرد تا به لیست انتظار بپیوندند. در ۱۰ مه ۲۰۲۳، گوگل لیست انتظار را حذف کرد و بارد را در بیش از ۱۸۰ کشور و منطقه در دسترس قرار داد. تقریباً دقیقاً یک سال پس از اعلام اولیه‌اش، نام بارد به جمنای تغییر یافت.

بسیاری بر این باور بودند که گوگل فشار موفقیت و تبلیغات مثبت چت‌جی‌پی‌تی را احساس کرده و این شرکت را وادار کرده تا بارد را قبل از آماده شدن کامل آن، به سرعت منتشر کند. به عنوان مثال، در جریان یک دموی زنده توسط مدیرعامل گوگل و آلفابت، سوندار پیچای، به یک پرسش با پاسخی اشتباه پاسخ داد.

در این دمو، کاربری از بارد این سوال را پرسید: “چه اکتشافات جدیدی از تلسکوپ فضایی جیمز وب وجود دارد که می‌توانم در مورد آنها به کودک ۹ ساله‌ام بگویم؟” در پاسخ بارد، اشاره شد که این تلسکوپ “اولین تصاویر از سیاره‌ای خارج از منظومه شمسی ما را گرفته است.” ستاره‌شناسان به سرعت در رسانه‌های اجتماعی اشاره کردند که اولین تصویر از یک سیاره‌ی فراخورشیدی در سال ۲۰۰۴ توسط یک رصدخانه‌ی زمینی گرفته شده است و پاسخ بارد را نادرست می‌کند. روز بعد، گوگل ۱۰۰ میلیارد دلار از ارزش بازار خود را از دست داد – کاهشی که به این اشتباه شرم‌آور نسبت داده شد.

چرا گوگل نام بارد را به جیمینی تغییر داد و این تغییر چه زمانی رخ داد؟

نام بارد در ۸ فوریه ۲۰۲۴ به جمنای تغییر یافت. جمنای از قبل مدل زبان بزرگ (LLM) بود که بارد را پشتیبانی می‌کرد. برخی بر این باورند که تغییر نام تجاری پلتفرم به جمنای ممکن است برای دور کردن توجه از نام بارد و انتقاداتی که چت‌بات در زمان انتشار اولیه با آن روبرو بود، انجام شده باشد. همچنین تلاش‌های گوگل در زمینه‌ی هوش مصنوعی را ساده‌تر کرد و بر موفقیت مدل زبان بزرگ جمنای تمرکز کرد.

این تغییر نام از دیدگاه بازاریابی نیز منطقی بود، زیرا گوگل قصد دارد خدمات هوش مصنوعی خود را گسترش دهد. این روشی برای گوگل است تا آگاهی از ارائه‌ی مدل زبان بزرگ پیشرفته‌ی خود را افزایش دهد، زیرا نشانه‌هایی از کاهش سرعت دموکراتیزاسیون و پیشرفت‌های هوش مصنوعی دیده نمی‌شود.

چه کسانی می‌توانند از گوگل جمنای استفاده کنند؟

جیمینی به طور گسترده در سراسر جهان در دسترس است. جمنای پرو در بیش از ۲۳۰ کشور و منطقه در دسترس است، در حالی که جمنای ادونس در زمان نوشتن این مطلب در بیش از ۱۵۰ کشور در دسترس است. با این حال، محدودیت‌های سنی برای مطابقت با قوانین و مقررات موجود برای حاکمیت بر هوش مصنوعی وجود دارد.

کاربران باید حداقل ۱۸ سال سن داشته باشند و یک حساب شخصی گوگل داشته باشند. با این حال، محدودیت‌های سنی برای برنامه‌ی وب جمنای متفاوت است. کاربران در اروپا باید ۱۸ سال یا بیشتر داشته باشند. در سایر کشورهایی که این پلتفرم در آنجا در دسترس است، حداقل سن ۱۳ سال است، مگر اینکه قوانین محلی خلاف آن را مشخص کرده باشند. همچنین، کاربرانی که زیر ۱۸ سال سن دارند، فقط می‌توانند از برنامه‌ی وب جمنای به زبان انگلیسی استفاده کنند.

آیا استفاده از جمنای رایگان است؟

زمانی که بارد در دسترس قرار گرفت، گوگل هیچ اشاره‌ای به دریافت هزینه برای استفاده از آن نکرد. گوگل سابقه‌ای در دریافت هزینه از مشتریان برای خدمات، به جز استفاده در سطح سازمانی از Google Cloud، ندارد. این فرض وجود داشت که چت‌بات در موتور جستجوی اصلی گوگل ادغام می‌شود و بنابراین استفاده از آن رایگان خواهد بود.

پس از تغییر نام تجاری بارد به جمنای در ۸ فوریه ۲۰۲۴، گوگل علاوه بر برنامه‌ی وب رایگان، یک سطح پولی نیز معرفی کرد. استفاده از Pro و Nano در حال حاضر با ثبت‌نام رایگان است. با این حال، کاربران فقط می‌توانند از طریق گزینه‌ی Gemini Advanced با پرداخت ۲۰ دلار در ماه به Ultra دسترسی پیدا کنند. کاربران از طریق اشتراک Google One AI Premium که شامل ویژگی‌های Google Workspace و ۲ ترابایت فضای ذخیره‌سازی نیز می‌شود، برای Gemini Advanced ثبت‌نام می‌کنند.

جیمینی برای چه مواردی قابل استفاده است؟ موارد استفاده و کاربردها

مدل‌های گوگل جمنای به روش‌های مختلفی از جمله درک متن، تصویر، صدا و ویدیو استفاده می‌شوند. ماهیت چندوجهی جمنای همچنین این امکان را فراهم می‌کند که انواع مختلف ورودی برای تولید خروجی ترکیب شوند.

موارد استفاده

کسب‌وکارها می‌توانند از جمنای برای انجام وظایف مختلفی که شامل موارد زیر است، استفاده کنند:

خلاصه‌سازی متن. مدل‌های جمنای می‌توانند محتوا را از انواع مختلف داده خلاصه کنند.
تولید متن. جمنای می‌تواند متن را بر اساس درخواست‌های کاربر تولید کند. این متن همچنین می‌تواند توسط یک رابط چت‌بات از نوع پرسش و پاسخ هدایت شود.
ترجمه متن. مدل‌های جمنای قابلیت‌های چندزبانه گسترده‌ای دارند که ترجمه و درک بیش از ۱۰۰ زبان را ممکن می‌سازد.
درک تصویر. جمنای می‌تواند تصاویر پیچیده مانند نمودارها، شکل‌ها و دیاگرام‌ها را بدون ابزارهای OCR خارجی تجزیه و تحلیل کند. می‌توان از آن برای شرح تصاویر و قابلیت‌های پرسش و پاسخ بصری استفاده کرد.
پردازش صدا. جمنای از تشخیص گفتار در بیش از ۱۰۰ زبان و وظایف ترجمه صوتی پشتیبانی می‌کند.
درک ویدیو. جمنای می‌تواند فریم‌های کلیپ ویدیو را برای پاسخ به سوالات و تولید توضیحات پردازش و درک کند.
استدلال چندوجهی. یکی از نقاط قوت کلیدی جمنای، استفاده از استدلال هوش مصنوعی چندوجهی است، جایی که انواع مختلف داده می‌توانند برای یک درخواست برای تولید خروجی ترکیب شوند.
تجزیه و تحلیل و تولید کد. جمنای می‌تواند کد را در زبان‌های برنامه‌نویسی محبوب، از جمله پایتون، جاوا، ++C و Go درک، توضیح و تولید کند.

کاربردها

گوگل جمنای را به عنوان یک مدل پایه توسعه داده است تا به طور گسترده در خدمات مختلف گوگل ادغام شود. همچنین برای توسعه‌دهندگان برای استفاده در ساخت برنامه‌های خودشان در دسترس است. برنامه‌هایی که از جمنای استفاده می‌کنند شامل موارد زیر است:

AlphaCode 2. ابزار تولید کد AlphaCode 2 گوگل دیپ‌مایند از یک نسخه‌ی سفارشی از جمنای پرو استفاده می‌کند.
Google Pixel. گوشی هوشمند Pixel 8 Pro ساخته شده توسط گوگل، اولین دستگاهی است که برای اجرای جمنای نانو مهندسی شده است. جمنای ویژگی‌های جدیدی را در برنامه‌های موجود گوگل، مانند خلاصه‌سازی در Recorder و پاسخ هوشمند در Gboard برای برنامه‌های پیام‌رسان، ارائه می‌دهد.
Android 14. Pixel 8 Pro اولین گوشی هوشمند اندرویدی است که از جمنای بهره می‌برد. توسعه‌دهندگان اندروید می‌توانند با جمنای نانو از طریق قابلیت سیستم AICore برنامه‌نویسی کنند.
Vertex AI. سرویس Vertex AI گوگل کلود، که مدل‌های پایه را ارائه می‌دهد که توسعه‌دهندگان می‌توانند از آنها برای ساخت برنامه‌ها استفاده کنند، دسترسی به جمنای پرو را نیز فراهم می‌کند.
Google AI Studio. توسعه‌دهندگان می‌توانند با استفاده از ابزار مبتنی بر وب Google AI Studio، نمونه‌های اولیه و برنامه‌ها را با جمنای بسازند.
جستجو. گوگل در حال آزمایش استفاده از جمنای در تجربه‌ی تولیدی جستجو خود برای کاهش تأخیر و بهبود کیفیت است.

محدودیت‌های جیمینی چیست؟

چند محدودیت ممکن است باعث تردید در بین کاربران نهایی بالقوه شود. این موارد شامل موارد زیر است:

داده‌های آموزشی. مانند همه چت‌بات‌های هوش مصنوعی، جمنای باید یاد بگیرد که پاسخ‌های صحیح بدهد. برای انجام این کار، مدل‌ها باید بر روی اطلاعات صحیح آموزش داده شوند که نادرست یا گمراه‌کننده نباشند. با این حال، آنها همچنین باید بتوانند اطلاعات نادرست یا گمراه‌کننده را هنگام مواجهه با آنها شناسایی کنند.
سوگیری و آسیب احتمالی. آموزش هوش مصنوعی یک فرآیند بی‌پایان و محاسباتی فشرده است زیرا همیشه اطلاعات جدیدی برای یادگیری وجود دارد. گوگل ادعا کرده است که در تمام مدل‌های جمنای، از شیوه‌های توسعه‌ی مسئولانه، از جمله ارزیابی گسترده برای کمک به محدود کردن خطر سوگیری و آسیب احتمالی پیروی کرده است.
اصالت و خلاقیت. محدودیت‌هایی در میزان اصالت و خلاقیتی که محتوای تولید شده توسط جمنای می‌تواند داشته باشد، وجود دارد. این امر به ویژه در مورد نسخه‌ی رایگان صادق است، که در پردازش درخواست‌های پیچیده، با مراحل و ظرافت‌های متعدد، و تولید خروجی مناسب مشکل داشته است. نسخه‌ی رایگان مبتنی بر مدل زبان بزرگ جمنای پرو است که قابلیت‌های محدودتری دارد. نسخه‌های پولی این پلتفرم دسترسی به ویژگی‌های پیشرفته‌تری را ارائه می‌دهند.

نگرانی‌ها در مورد جیمینی چیست؟

یکی از نگرانی‌ها در مورد جمنای حول محور پتانسیل آن برای ارائه‌ی اطلاعات مغرضانه یا نادرست به کاربران می‌چرخد. هرگونه سوگیری ذاتی در داده‌های آموزشی که به جمنای داده می‌شود، می‌تواند منجر به احتیاط در بین کاربران شود. به عنوان مثال، همانطور که در مورد تمام نرم‌افزارهای پیشرفته‌ی هوش مصنوعی وجود دارد، داده‌های آموزشی که گروه‌های خاصی را در یک جمعیت معین حذف می‌کنند، منجر به خروجی‌های نامتوازن می‌شوند.

تمایل جمنای به تولید توهمات و سایر ساخته‌ها و انتقال آنها به کاربران به عنوان حقیقت نیز نگران‌کننده است. این از زمان پیدایش آن، یکی از بزرگترین خطرات پاسخ‌های چت‌جی‌پی‌تی بوده است، همانطور که در مورد سایر ابزارهای پیشرفته‌ی هوش مصنوعی نیز وجود دارد. علاوه بر این، از آنجایی که جمنای همیشه زمینه را درک نمی‌کند، پاسخ‌های آن ممکن است همیشه مرتبط با درخواست‌ها و پرسش‌هایی که کاربران ارائه می‌دهند، نباشد.

جمنای به چه زبان‌هایی در دسترس است؟

از جمنای می‌توان به بیش از ۴۵ زبان استفاده کرد. این مدل می‌تواند ورودی‌های مبتنی بر متن را با دقتی تقریباً شبیه به انسان به زبان‌های مختلف ترجمه کند. گوگل قصد دارد قابلیت‌های درک زبان جمنای را گسترش دهد و آن را همه‌جا حاضر کند. با این حال، عوامل مهمی برای در نظر گرفتن وجود دارد، مانند ممنوعیت محتوای تولید شده توسط مدل‌های زبان بزرگ یا تلاش‌های نظارتی مداوم در کشورهای مختلف که می‌تواند استفاده‌ی آینده از جمنای را محدود یا از آن جلوگیری کند.

جمنای علاوه بر ترجمه، قابلیت‌های دیگری را در زبان‌های مختلف ارائه می‌دهد. به عنوان مثال، این مدل قادر به استدلال ریاضی و خلاصه‌سازی به چندین زبان است. همچنین می‌تواند برای یک تصویر به زبان‌های مختلف شرح تولید کند.

آیا تولید تصویر در جمنای در دسترس است؟

پس از انتشار جمنای، گوگل توانایی آن در تولید تصاویر را به همان روش سایر ابزارهای هوش مصنوعی مولد، مانند Dall-E، Midjourney و Stable Diffusion، تبلیغ کرد. جمنای در حال حاضر از مدل متن به تصویر Imagen 2 گوگل استفاده می‌کند که به این ابزار قابلیت‌های تولید تصویر می‌دهد.

با این حال، در اواخر فوریه ۲۰۲۴، ویژگی تولید تصویر جمنای متوقف شد تا پس از نشان دادن نادرستی‌های واقعی در تصاویر تولید شده، دوباره پیکربندی شود. گوگل قصد دارد این ویژگی را بهبود بخشد تا جمنای بتواند در درازمدت چندوجهی باقی بماند.

قبل از اینکه گوگل دسترسی به ویژگی ایجاد تصویر را متوقف کند، خروجی‌های جمنای از ساده تا پیچیده، بسته به ورودی‌های کاربر نهایی، متغیر بود. کاربران می‌توانستند درخواست‌های توصیفی را برای استخراج تصاویر خاص ارائه دهند. یک فرآیند گام به گام ساده برای ورود درخواست توسط کاربر، مشاهده تصویر تولید شده توسط جمنای، ویرایش آن و ذخیره آن برای استفاده بعدی لازم بود.

مقایسه جمنای با GPT-3 و GPT-4

گوگل جمنای یک رقیب مستقیم برای مدل‌های GPT-3 و GPT-4 از OpenAI است. جدول زیر برخی از ویژگی‌های کلیدی محصولات گوگل جمنای و OpenAI را مقایسه می‌کند.

	جمنای	GPT-3 و GPT-4
توسعه‌دهنده	گوگل دیپ‌مایند	OpenAI
رابط چت‌بات	جمنای؛ قبلاً بارد	ChatGPT
نوع عملکرد	چندوجهی (متن، تصویر، صدا و ویدیو را درک و ترکیب می‌کند)	در ابتدا فقط برای پردازش متن طراحی شده بود، اما GPT-4 قابلیت پردازش چندوجهی (متن و تصویر) را نیز دارد.
نسخه‌های مختلف مدل	نسخه‌های مختلف بر اساس اندازه: Ultra (بسیار پیشرفته)، Pro (حرفه‌ای) و Nano (کوچک و بهینه برای دستگاه‌های موبایل)	نسخه‌های بهینه‌شده برای اندازه و عملکرد: GPT-3.5 Turbo و GPT-4 Turbo
حجم تولید محتوا	۳۲۰۰۰ توکن (واحد شمارش کلمات و بخش‌های کلمات)	۳۲۰۰۰ توکن

هم جمنای و هم چت‌جی‌پی‌تی چت‌بات‌های هوش مصنوعی هستند که برای تعامل با افراد از طریق پردازش زبان طبیعی (NLP) و یادگیری ماشین طراحی شده‌اند. هر دو از یک مدل زبان بزرگ (LLM) زیربنایی برای تولید و ایجاد متن مکالمه استفاده می‌کنند.

چت‌جی‌پی‌تی از هوش مصنوعی مولد برای تولید محتوای اصلی استفاده می‌کند. به عنوان مثال، کاربران می‌توانند از آن بخواهند که پایان‌نامه‌ای در مورد مزایای هوش مصنوعی بنویسد. جمنای نیز از هوش مصنوعی مولد استفاده می‌کند. هر دو به گونه‌ای طراحی شده‌اند که جستجو را طبیعی‌تر و مفیدتر کنند و همچنین اطلاعات جدید را در پاسخ‌های خود ترکیب کنند.

در ژانویه ۲۰۲۳، مایکروسافت قراردادی به ارزش گزارش شده‌ی ۱۰ میلیارد دلار با OpenAI امضا کرد تا مجوز بگیرد و چت‌جی‌پی‌تی را در موتور جستجوی بینگ خود بگنجاند تا نتایج جستجوی مکالمه‌ای بیشتری، مشابه گوگل بارد در آن زمان، ارائه دهد. این امر راه را برای سایر موتورهای جستجو برای دریافت مجوز چت‌جی‌پی‌تی باز کرد، در حالی که جمنای فقط از گوگل پشتیبانی می‌کند.

یکی دیگر از شباهت‌های بین این دو چت‌بات، پتانسیل آنها برای تولید محتوای سرقت ادبی و توانایی آنها در کنترل این موضوع است. نه جمنای و نه چت‌جی‌پی‌تی ویژگی‌های تشخیص سرقت ادبی داخلی ندارند که کاربران بتوانند برای تأیید اصالت خروجی‌ها به آنها تکیه کنند. با این حال، ابزارهای جداگانه‌ای برای تشخیص سرقت ادبی در محتوای تولید شده توسط هوش مصنوعی وجود دارد، بنابراین کاربران گزینه‌های دیگری دارند. جمنای قادر است در پاسخ‌های خود به محتوای دیگر استناد کند و به منابع پیوند دهد. عملکرد بررسی مجدد جمنای، URLهایی را به منابع اطلاعاتی که از آنها برای تولید محتوا بر اساس یک درخواست استفاده می‌کند، ارائه می‌دهد.

جایگزین‌های گوگل جمنای

گوگل جمنای اولین چت‌بات هوش مصنوعی نیست. چت‌بات‌های مبتنی بر هوش مصنوعی با قابلیت‌های کم‌تر، برای مدت‌ها وجود داشته‌اند. چندین شرکت استارت‌آپ، فناوری‌های مشابهی برای چت‌بات‌ها توسعه داده‌اند، اما هیچ‌کدام به اندازه‌ی چت‌جی‌پی‌تی مورد توجه قرار نگرفته‌اند.

بر اساس گفته‌های آدری چی‌رید، تحلیلگر ارشد در مؤسسه‌ی تحقیقاتی فارستر و سایر کارشناسان این حوزه، نمونه‌هایی از رقبای چت‌بات جمنای که متن یا کد اصلی تولید می‌کنند، عبارتند از:

چت‌سونیک (Chatsonic) : چت‌سونیک که با عنوان «جایگزین چت‌جی‌پی‌تی با ابرقدرت‌ها» تبلیغ می‌شود، یک چت‌بات هوش مصنوعی است که با جستجوی گوگل و یک تولیدکننده‌ی متن مبتنی بر هوش مصنوعی به نام رایت‌سونیک (Writesonic) کار می‌کند. این ابزار به کاربران امکان می‌دهد در زمان واقعی در مورد موضوعات مختلف بحث کنند تا متن یا تصویر ایجاد کنند.
کلود (Claude) : کلود یک چت‌بات مبتنی بر هوش مصنوعی از شرکت Anthropic است که نام آن برگرفته از مدل زبان بزرگ زیربنایی آن است. این چت‌بات تحت آزمایش‌های سختگیرانه‌ای قرار گرفته تا اطمینان حاصل شود که با استانداردهای هوش مصنوعی اخلاقی مطابقت دارد و خروجی توهین‌آمیز یا نادرست از لحاظ واقعیت تولید نمی‌کند.
کپی.ای (Copy.ai) : کپی.ای در ابتدا برای کمک به تیم‌های فروش و بازاریابی ساخته شد. این ابزار متن‌های اصلی مانند پست‌های رسانه‌های اجتماعی، وبلاگ‌ها، ایمیل‌ها و سایر انواع محتوا را تولید می‌کند و همچنین وظایف گردش کار را خودکار می‌کند.
گیت‌هاب کوپایلوت (GitHub Copilot) : گیت‌هاب کوپایلوت در تولید کد برای توسعه‌دهندگان تخصص دارد. هدف این ابزار ساده‌سازی وظایف توسعه‌ی نرم‌افزار است که در غیر این صورت در تولید نرم‌افزارهای مدرن خسته‌کننده هستند. در حالی که این ابزار برای تولید متن ساخته نشده است، اما به عنوان جایگزینی مناسب برای چت‌جی‌پی‌تی یا جمنای برای تولید کد عمل می‌کند.
جاسپر چت (Jasper Chat) : جاسپر چت از شرکت Jasper.ai یک ابزار هوش مصنوعی مکالمه‌محور است که روی تولید متن تمرکز دارد. این ابزار برای شرکت‌هایی طراحی شده است که به دنبال ایجاد محتوای مرتبط با برند خود و گفتگو با مشتریان هستند. جسپر چت به تولیدکنندگان محتوا این امکان را می‌دهد تا کلمات کلیدی بهینه‌سازی برای موتورهای جستجو و لحن متن را در درخواست‌های خود مشخص کنند.
مایکروسافت بینگ : شرکت مایکروسافت با مشارکت خود با OpenAI دقیقاً همان کاری را انجام می‌دهد که گوگل با جمنای انجام می‌دهد: جستجوی مبتنی بر هوش مصنوعی که پرسش‌های زبان طبیعی را تشخیص می‌دهد و پاسخ‌های زبان طبیعی ارائه می‌دهد. وقتی کاربری یک عبارت را جستجو می‌کند، نتایج استاندارد جستجوی بینگ و پاسخی را که توسط GPT-4 تولید شده است، دریافت می‌کند. همچنین کاربر می‌تواند با هوش مصنوعی در مورد پاسخ آن تعامل داشته باشد.
اسپین‌بوت (SpinBot) : این ابزار هوش مصنوعی مولد در تولید متن اصلی و همچنین بازنویسی محتوا و اجتناب از سرقت ادبی تخصص دارد. اسپین‌بوت وظایف ساده‌ی دیگری را نیز برای کمک به متخصصان در نوشتن تکالیف، مانند غلط‌یابی، انجام می‌دهد.
یوچت (YouChat) : یوچت، چت‌بات هوش مصنوعی از موتور جستجوی You.com است که در آلمان مستقر است. یوچت به سوالات پاسخ می‌دهد و منابع پاسخ‌های خود را ارائه می‌دهد تا کاربران بتوانند منابع را بررسی کنند و صحت پاسخ‌ها را تأیید نمایند.

تاریخچه و آینده جمنای

جمنای، تحت نام اصلی خود یعنی بارد، در ابتدا حول محور جستجو طراحی شده بود. هدف آن ارائه‌ی پرسش‌های زبان طبیعی‌تر، به جای کلمات کلیدی، برای جستجو بود. هوش مصنوعی آن حول پرسش‌ها و پاسخ‌های مکالمه‌ای طبیعی آموزش دیده بود. به جای ارائه‌ی لیستی از پاسخ‌ها، به پاسخ‌ها زمینه می‌داد. بارد برای کمک به سؤالات پیگیری طراحی شده بود – چیزی جدید در جستجو. همچنین دارای یک عملکرد اشتراک‌گذاری مکالمه و یک عملکرد بررسی مجدد بود که به کاربران در بررسی صحت نتایج تولید شده کمک می‌کرد.

بارد همچنین با چندین برنامه و سرویس گوگل، از جمله یوتیوب، مپس، هتلز، فلایتس، جیمیل، داکس و درایو ادغام شده بود و به کاربران امکان می‌داد از ابزار هوش مصنوعی در محتوای شخصی خود استفاده کنند.

اولین نسخه‌ی بارد از نسخه‌ای سبک‌تر از مدل Lamda استفاده می‌کرد که برای مقیاس‌بندی به کاربران همزمان بیشتر، به قدرت محاسباتی کمتری نیاز داشت. گنجاندن مدل زبانی Palm 2 به بارد این امکان را داد که در پاسخ‌های خود به پرسش‌های کاربر، تصویری‌تر باشد. بارد همچنین Google Lens را در خود جای داده بود و به کاربران اجازه می‌داد علاوه بر درخواست‌های نوشتاری، تصاویر را نیز آپلود کنند. گنجاندن بعدی مدل زبانی جمنای، استدلال، برنامه‌ریزی و درک پیشرفته‌تری را امکان‌پذیر کرد.

سپس، به عنوان بخشی از راه‌اندازی اولیه‌ی جمنای در ۶ دسامبر ۲۰۲۳، گوگل در مورد آینده‌ی مدل‌های زبان بزرگ نسل بعدی خود راهنمایی ارائه کرد. در حالی که گوگل در آن روز جمنای Ultra، Pro و Nano را معرفی کرد، Ultra را همزمان با Pro و Nano در دسترس قرار نداد. در ابتدا، Ultra فقط برای مشتریان، توسعه‌دهندگان، شرکا و متخصصان منتخب در دسترس بود. این مدل به طور کامل در فوریه ۲۰۲۴ منتشر شد.

آینده‌ی جمنای همچنین در مورد عرضه‌ی گسترده‌تر و ادغام در سراسر پورتفولیوی گوگل است. جمنای در نهایت در مرورگر گوگل کروم گنجانده خواهد شد تا تجربه‌ی وب را برای کاربران بهبود بخشد. گوگل همچنین متعهد شده است که جمنای را در پلتفرم Google Ads ادغام کند و راه‌های جدیدی را برای تبلیغ‌کنندگان برای ارتباط و تعامل با کاربران فراهم کند. دستیار Duet AI نیز قرار است در آینده از جمنای بهره‌مند شود.

در ۱۵ فوریه ۲۰۲۴، گوگل آزمایش اولیه‌ی جمنای ۱.۵ را اعلام کرد. این نسخه برای طیف وسیعی از وظایفی که در آنها مشابه جمنای ۱.۰ Ultra عمل می‌کند، بهینه شده است، اما با یک ویژگی آزمایشی اضافی متمرکز بر درک متن طولانی. به گفته‌ی گوگل، آزمایش‌های اولیه نشان می‌دهد که جمنای ۱.۵ پرو در حدود ۸۷ درصد از معیارهای گوگل که برای توسعه‌ی مدل‌های زبان بزرگ تعیین شده است، از ۱.۰ پرو عملکرد بهتری دارد. انتظار می‌رود آزمایش‌های مداوم تا زمان اعلام عرضه‌ی کامل ۱.۵ پرو ادامه داشته باشد.

به‌روزرسانی‌های اخیر گوگل جمنای

در مه ۲۰۲۴، گوگل در کنفرانس Google I/O از پیشرفت‌های بیشتر در Google 1.5 Pro خبر داد. این به‌روزرسانی‌ها شامل بهبود عملکرد در ویژگی‌های ترجمه، کدنویسی و استدلال است. Google 1.5 Pro ارتقا یافته همچنین درک تصویر و ویدیو را بهبود بخشیده است، از جمله توانایی پردازش مستقیم ورودی‌های صوتی با استفاده از درک صوتی بومی. پنجره‌ی متن مدل به ۱ میلیون توکن افزایش یافته است و آن را قادر می‌سازد هنگام پاسخ به درخواست‌ها، اطلاعات بسیار بیشتری را به خاطر بسپارد.

همچنین در ماه مه، جمنای ۱.۵ فلش، یک مدل کوچکتر با میانگین تأخیر کمتر از یک ثانیه برای اولین توکن و پنجره‌ی متن ۱ میلیون توکنی منتشر شد.

علاوه بر ارتقاء مدل اصلی، گوگل ویژگی‌های جدیدی را برای API جمنای در ماه مه اعلام کرد، از جمله موارد زیر:

استخراج فریم ویدیو. کاربران می‌توانند یک ویدیو را برای تولید محتوا آپلود کنند.
فراخوانی موازی تابع. کاربران می‌توانند بیش از یک فراخوانی تابع را به طور همزمان انجام دهند.

فروشنده قصد دارد در ماه ژوئن، حافظه‌پنهان زمینه را اضافه کند تا اطمینان حاصل شود که کاربران فقط یک بار مجبور به ارسال بخش‌هایی از یک درخواست به یک مدل هستند.

هم جمنای ۱.۵ پرو و هم جمنای ۱.۵ فلش در بیش از ۲۰۰ کشور و منطقه در دسترس هستند.

گوگل جمنای ۲.۰ فلش را در ۱۱ دسامبر ۲۰۲۴، در یک پیش‌نمایش آزمایشی از طریق Vertex AI Gemini API و AI Studio معرفی کرد. ۲.۰ فلش دو برابر سریع‌تر از ۱.۵ پرو است و قابلیت‌های جدیدی از جمله ورودی چندوجهی و خروجی متن شامل صدا و تصاویر و درک متن طولانی دارد. حالت‌های جدید همچنین شامل قابلیت‌های تبدیل متن به گفتار برای ویرایش تصویر و هنر است. API جدید دارای برنامه‌های پخش جریانی صدا برای کمک به استفاده از ابزار بومی و بهبود تأخیر است. گوگل قصد دارد این مدل جدید را در ژانویه ۲۰۲۵ برای مخاطبان بیشتری عرضه کند.

لیست مدل‌های زبان بزرگ موجود همچنان در حال افزایش است. درباره‌ی مدل‌های زبان بزرگ برتر، از جمله مدل‌های شناخته شده و سایر مدل‌هایی که مبهم‌تر هستند، اطلاعات کسب کنید.

اخبار هوش مصنوعی