در سالهای اخیر، ظهور ابزارهای گفتگوی مبتنی بر هوش مصنوعی، نحوه تعامل ما با فناوری را متحول کرده است. یکی از جدیدترین بازیگران این عرصه، جمنای، پلتفرم مبتنی بر هوش مصنوعی گوگل است که کنجکاوی کاربران و کسبوکارها را برانگیخته است. در این مقاله، به بررسی عمیق چیستی جمنای، نحوه عملکرد آن و چرایی ایجاد موج در دنیای هوش مصنوعی خواهیم پرداخت.
جیمینی چیست؟
گوگل جیمینی — که قبلاً با نام بارد شناخته میشد — یک ابزار چتبات هوش مصنوعی (AI) است که توسط گوگل طراحی شده تا با استفاده از پردازش زبان طبیعی (NLP) و یادگیری ماشین، مکالمات انسانی را شبیهسازی کند. علاوه بر تکمیل جستجوی گوگل، جمنای میتواند در وبسایتها، پلتفرمهای پیامرسان یا برنامهها ادغام شود تا پاسخهای واقعی و به زبان طبیعی به سؤالات کاربران ارائه دهد.
گوگل جمنای، خانوادهای از مدلهای زبان بزرگ (LLM) هوش مصنوعی چندوجهی است که درک زبان، صدا، کد و ویدیو را دارد.
جمنای ۱.۰ در ۶ دسامبر ۲۰۲۳ معرفی شد و توسط واحد تجاری دیپمایند گوگلِ آلفابت ساخته شده است که بر تحقیقات و توسعهی پیشرفتهی هوش مصنوعی متمرکز است. از سرگئی برین، یکی از بنیانگذاران گوگل، در توسعهی مدلهای زبان بزرگ جمنای، در کنار سایر کارکنان گوگل، قدردانی شده است.
در زمان انتشار، جمنای پیشرفتهترین مجموعهی مدلهای زبان بزرگ در گوگل بود که قبل از تغییر نام بارد، آن را پشتیبانی میکرد و جایگزین مدل زبان Pathways (Palm 2) این شرکت شد. همانطور که در مورد Palm 2 نیز صادق بود، جمنای در چندین فناوری گوگل ادغام شد تا قابلیتهای هوش مصنوعی مولد را ارائه دهد.
در ۱۱ دسامبر ۲۰۲۴، گوگل با معرفی یک نسخهی آزمایشی از Flash 2.0 در استودیوی هوش مصنوعی گوگل و API ورتکس ایآی جمنای، نسخهی بهروز شدهای از مدل زبان بزرگ خود را با جمنای ۲.۰ منتشر کرد.
جمنای قابلیتهای پردازش زبان طبیعی (NLP) را ادغام میکند که توانایی درک و پردازش زبان را فراهم میکند. جمنای همچنین برای درک پرسشها و دادههای ورودی استفاده میشود. این مدل قادر به درک و تشخیص تصاویر است و به آن امکان میدهد تصاویر پیچیده مانند نمودارها و شکلها را بدون نیاز به تشخیص نوری کاراکتر (OCR) خارجی تجزیه و تحلیل کند. همچنین قابلیتهای چندزبانه گستردهای برای وظایف ترجمه و عملکرد در زبانهای مختلف دارد.
برخلاف مدلهای هوش مصنوعی قبلی گوگل، جمنای بهطور ذاتی چندوجهی است، به این معنی که بهصورت سرتاسری روی مجموعهدادههایی که انواع مختلف داده را در بر میگیرند، آموزش داده شده است. جمنای به عنوان یک مدل چندوجهی، تواناییهای استدلال بینوجهی را ممکن میسازد. این بدان معناست که جمنای میتواند در میان دنبالهای از انواع مختلف داده ورودی، از جمله صدا، تصاویر و متن، استدلال کند. به عنوان مثال، جمنای میتواند یادداشتهای دستنویس، نمودارها و دیاگرامها را برای حل مسائل پیچیده درک کند. معماری جمنای از دریافت مستقیم متن، تصاویر، شکل موجهای صوتی و فریمهای ویدیو به عنوان دنبالههای درهم پشتیبانی میکند.
جیمینی چگونه کار میکند؟
گوگل جمنای ابتدا با آموزش روی مجموعهی عظیمی از دادهها کار میکند. پس از آموزش، مدل از چندین تکنیک شبکهی عصبی برای درک محتوا، پاسخ به سؤالات، تولید متن و تولید خروجی استفاده میکند.
به طور خاص، مدلهای زبان بزرگ جمنای از معماری شبکهی عصبی مبتنی بر مدل ترانسفورمر استفاده میکنند. معماری جمنای برای پردازش دنبالههای متنی طولانی در انواع مختلف داده، از جمله متن، صدا و ویدیو، بهبود یافته است. گوگل دیپمایند از مکانیسمهای توجه کارآمد در رمزگشای ترانسفورمر استفاده میکند تا به مدلها در پردازش متون طولانی، که شامل روشهای مختلف هستند، کمک کند.
مدلهای جمنای روی مجموعهدادههای چندوجهی و چندزبانه متنوع از متن، تصاویر، صدا و ویدیو با استفاده از فیلتر پیشرفتهی داده توسط گوگل دیپمایند برای بهینهسازی آموزش، آموزش داده شدهاند. از آنجایی که مدلهای مختلف جمنای در پشتیبانی از خدمات خاص گوگل مستقر میشوند، فرآیند تنظیم دقیق هدفمندی وجود دارد که میتواند برای بهینهسازی بیشتر یک مدل برای یک مورد استفاده خاص استفاده شود. در طول هر دو مرحلهی آموزش و استنتاج، جمنای از استفاده از آخرین تراشههای واحد پردازش تانسور گوگل، TPU v5، که شتابدهندههای سفارشی هوش مصنوعی بهینه شده برای آموزش و استقرار کارآمد مدلهای بزرگ هستند، بهره میبرد.
یک چالش کلیدی برای مدلهای زبان بزرگ، خطر سوگیری و محتوای بالقوه سمی است. به گفتهی گوگل، جمنای تحت آزمایش ایمنی گسترده و کاهش خطراتی مانند سوگیری و سمیت قرار گرفته است تا درجهای از ایمنی مدل زبان بزرگ را فراهم کند. برای اطمینان بیشتر از اینکه جمنای همانطور که باید کار میکند، مدلها در برابر معیارهای آکادمیک که حوزههای زبان، تصویر، صدا، ویدیو و کد را در بر میگیرند، آزمایش شدند. گوگل به عموم اطمینان داده است که به فهرستی از اصول هوش مصنوعی پایبند است.
در زمان راهاندازی در ۶ دسامبر ۲۰۲۳، اعلام شد که جمنای از یک سری اندازههای مختلف مدل تشکیل شده است که هر کدام برای مجموعهای خاص از موارد استفاده و محیطهای استقرار طراحی شدهاند. مدل Ultra بالاترین سطح است و برای وظایف بسیار پیچیده طراحی شده است. مدل Pro برای عملکرد و استقرار در مقیاس بزرگ طراحی شده است. از ۱۳ دسامبر ۲۰۲۳، گوگل دسترسی به جمنای پرو را در Google Cloud Vertex AI و Google AI Studio فراهم کرد. برای کد، نسخهای از جمنای پرو برای پشتیبانی از فناوری کدنویسی هوش مصنوعی مولد Google AlphaCode 2 استفاده میشود.
مدل Nano برای موارد استفاده در دستگاه هدف قرار گرفته است. دو نسخهی مختلف از جمنای نانو وجود دارد: Nano-1 یک مدل ۱.۸ میلیارد پارامتری است، در حالی که Nano-2 یک مدل ۳.۲۵ میلیارد پارامتری است. از جمله جاهایی که نانو در آن تعبیه شده است، گوشی هوشمند Google Pixel 8 Pro است.
گوگل بارد ابتدا چه زمانی منتشر شد؟
گوگل ابتدا بارد، چتبات مجهز به هوش مصنوعی خود را در ۶ فوریه ۲۰۲۳ با یک تاریخ انتشار مبهم معرفی کرد. دسترسی به بارد را در ۲۱ مارس ۲۰۲۳ باز کرد و از کاربران دعوت کرد تا به لیست انتظار بپیوندند. در ۱۰ مه ۲۰۲۳، گوگل لیست انتظار را حذف کرد و بارد را در بیش از ۱۸۰ کشور و منطقه در دسترس قرار داد. تقریباً دقیقاً یک سال پس از اعلام اولیهاش، نام بارد به جمنای تغییر یافت.
بسیاری بر این باور بودند که گوگل فشار موفقیت و تبلیغات مثبت چتجیپیتی را احساس کرده و این شرکت را وادار کرده تا بارد را قبل از آماده شدن کامل آن، به سرعت منتشر کند. به عنوان مثال، در جریان یک دموی زنده توسط مدیرعامل گوگل و آلفابت، سوندار پیچای، به یک پرسش با پاسخی اشتباه پاسخ داد.
در این دمو، کاربری از بارد این سوال را پرسید: “چه اکتشافات جدیدی از تلسکوپ فضایی جیمز وب وجود دارد که میتوانم در مورد آنها به کودک ۹ سالهام بگویم؟” در پاسخ بارد، اشاره شد که این تلسکوپ “اولین تصاویر از سیارهای خارج از منظومه شمسی ما را گرفته است.” ستارهشناسان به سرعت در رسانههای اجتماعی اشاره کردند که اولین تصویر از یک سیارهی فراخورشیدی در سال ۲۰۰۴ توسط یک رصدخانهی زمینی گرفته شده است و پاسخ بارد را نادرست میکند. روز بعد، گوگل ۱۰۰ میلیارد دلار از ارزش بازار خود را از دست داد – کاهشی که به این اشتباه شرمآور نسبت داده شد.
چرا گوگل نام بارد را به جیمینی تغییر داد و این تغییر چه زمانی رخ داد؟
نام بارد در ۸ فوریه ۲۰۲۴ به جمنای تغییر یافت. جمنای از قبل مدل زبان بزرگ (LLM) بود که بارد را پشتیبانی میکرد. برخی بر این باورند که تغییر نام تجاری پلتفرم به جمنای ممکن است برای دور کردن توجه از نام بارد و انتقاداتی که چتبات در زمان انتشار اولیه با آن روبرو بود، انجام شده باشد. همچنین تلاشهای گوگل در زمینهی هوش مصنوعی را سادهتر کرد و بر موفقیت مدل زبان بزرگ جمنای تمرکز کرد.
این تغییر نام از دیدگاه بازاریابی نیز منطقی بود، زیرا گوگل قصد دارد خدمات هوش مصنوعی خود را گسترش دهد. این روشی برای گوگل است تا آگاهی از ارائهی مدل زبان بزرگ پیشرفتهی خود را افزایش دهد، زیرا نشانههایی از کاهش سرعت دموکراتیزاسیون و پیشرفتهای هوش مصنوعی دیده نمیشود.
چه کسانی میتوانند از گوگل جمنای استفاده کنند؟
جیمینی به طور گسترده در سراسر جهان در دسترس است. جمنای پرو در بیش از ۲۳۰ کشور و منطقه در دسترس است، در حالی که جمنای ادونس در زمان نوشتن این مطلب در بیش از ۱۵۰ کشور در دسترس است. با این حال، محدودیتهای سنی برای مطابقت با قوانین و مقررات موجود برای حاکمیت بر هوش مصنوعی وجود دارد.
کاربران باید حداقل ۱۸ سال سن داشته باشند و یک حساب شخصی گوگل داشته باشند. با این حال، محدودیتهای سنی برای برنامهی وب جمنای متفاوت است. کاربران در اروپا باید ۱۸ سال یا بیشتر داشته باشند. در سایر کشورهایی که این پلتفرم در آنجا در دسترس است، حداقل سن ۱۳ سال است، مگر اینکه قوانین محلی خلاف آن را مشخص کرده باشند. همچنین، کاربرانی که زیر ۱۸ سال سن دارند، فقط میتوانند از برنامهی وب جمنای به زبان انگلیسی استفاده کنند.
آیا استفاده از جمنای رایگان است؟
زمانی که بارد در دسترس قرار گرفت، گوگل هیچ اشارهای به دریافت هزینه برای استفاده از آن نکرد. گوگل سابقهای در دریافت هزینه از مشتریان برای خدمات، به جز استفاده در سطح سازمانی از Google Cloud، ندارد. این فرض وجود داشت که چتبات در موتور جستجوی اصلی گوگل ادغام میشود و بنابراین استفاده از آن رایگان خواهد بود.
پس از تغییر نام تجاری بارد به جمنای در ۸ فوریه ۲۰۲۴، گوگل علاوه بر برنامهی وب رایگان، یک سطح پولی نیز معرفی کرد. استفاده از Pro و Nano در حال حاضر با ثبتنام رایگان است. با این حال، کاربران فقط میتوانند از طریق گزینهی Gemini Advanced با پرداخت ۲۰ دلار در ماه به Ultra دسترسی پیدا کنند. کاربران از طریق اشتراک Google One AI Premium که شامل ویژگیهای Google Workspace و ۲ ترابایت فضای ذخیرهسازی نیز میشود، برای Gemini Advanced ثبتنام میکنند.
جیمینی برای چه مواردی قابل استفاده است؟ موارد استفاده و کاربردها
مدلهای گوگل جمنای به روشهای مختلفی از جمله درک متن، تصویر، صدا و ویدیو استفاده میشوند. ماهیت چندوجهی جمنای همچنین این امکان را فراهم میکند که انواع مختلف ورودی برای تولید خروجی ترکیب شوند.
موارد استفاده
کسبوکارها میتوانند از جمنای برای انجام وظایف مختلفی که شامل موارد زیر است، استفاده کنند:
- خلاصهسازی متن. مدلهای جمنای میتوانند محتوا را از انواع مختلف داده خلاصه کنند.
- تولید متن. جمنای میتواند متن را بر اساس درخواستهای کاربر تولید کند. این متن همچنین میتواند توسط یک رابط چتبات از نوع پرسش و پاسخ هدایت شود.
- ترجمه متن. مدلهای جمنای قابلیتهای چندزبانه گستردهای دارند که ترجمه و درک بیش از ۱۰۰ زبان را ممکن میسازد.
- درک تصویر. جمنای میتواند تصاویر پیچیده مانند نمودارها، شکلها و دیاگرامها را بدون ابزارهای OCR خارجی تجزیه و تحلیل کند. میتوان از آن برای شرح تصاویر و قابلیتهای پرسش و پاسخ بصری استفاده کرد.
- پردازش صدا. جمنای از تشخیص گفتار در بیش از ۱۰۰ زبان و وظایف ترجمه صوتی پشتیبانی میکند.
- درک ویدیو. جمنای میتواند فریمهای کلیپ ویدیو را برای پاسخ به سوالات و تولید توضیحات پردازش و درک کند.
- استدلال چندوجهی. یکی از نقاط قوت کلیدی جمنای، استفاده از استدلال هوش مصنوعی چندوجهی است، جایی که انواع مختلف داده میتوانند برای یک درخواست برای تولید خروجی ترکیب شوند.
- تجزیه و تحلیل و تولید کد. جمنای میتواند کد را در زبانهای برنامهنویسی محبوب، از جمله پایتون، جاوا، ++C و Go درک، توضیح و تولید کند.
کاربردها
گوگل جمنای را به عنوان یک مدل پایه توسعه داده است تا به طور گسترده در خدمات مختلف گوگل ادغام شود. همچنین برای توسعهدهندگان برای استفاده در ساخت برنامههای خودشان در دسترس است. برنامههایی که از جمنای استفاده میکنند شامل موارد زیر است:
- AlphaCode 2. ابزار تولید کد AlphaCode 2 گوگل دیپمایند از یک نسخهی سفارشی از جمنای پرو استفاده میکند.
- Google Pixel. گوشی هوشمند Pixel 8 Pro ساخته شده توسط گوگل، اولین دستگاهی است که برای اجرای جمنای نانو مهندسی شده است. جمنای ویژگیهای جدیدی را در برنامههای موجود گوگل، مانند خلاصهسازی در Recorder و پاسخ هوشمند در Gboard برای برنامههای پیامرسان، ارائه میدهد.
- Android 14. Pixel 8 Pro اولین گوشی هوشمند اندرویدی است که از جمنای بهره میبرد. توسعهدهندگان اندروید میتوانند با جمنای نانو از طریق قابلیت سیستم AICore برنامهنویسی کنند.
- Vertex AI. سرویس Vertex AI گوگل کلود، که مدلهای پایه را ارائه میدهد که توسعهدهندگان میتوانند از آنها برای ساخت برنامهها استفاده کنند، دسترسی به جمنای پرو را نیز فراهم میکند.
- Google AI Studio. توسعهدهندگان میتوانند با استفاده از ابزار مبتنی بر وب Google AI Studio، نمونههای اولیه و برنامهها را با جمنای بسازند.
- جستجو. گوگل در حال آزمایش استفاده از جمنای در تجربهی تولیدی جستجو خود برای کاهش تأخیر و بهبود کیفیت است.
محدودیتهای جیمینی چیست؟
چند محدودیت ممکن است باعث تردید در بین کاربران نهایی بالقوه شود. این موارد شامل موارد زیر است:
- دادههای آموزشی. مانند همه چتباتهای هوش مصنوعی، جمنای باید یاد بگیرد که پاسخهای صحیح بدهد. برای انجام این کار، مدلها باید بر روی اطلاعات صحیح آموزش داده شوند که نادرست یا گمراهکننده نباشند. با این حال، آنها همچنین باید بتوانند اطلاعات نادرست یا گمراهکننده را هنگام مواجهه با آنها شناسایی کنند.
- سوگیری و آسیب احتمالی. آموزش هوش مصنوعی یک فرآیند بیپایان و محاسباتی فشرده است زیرا همیشه اطلاعات جدیدی برای یادگیری وجود دارد. گوگل ادعا کرده است که در تمام مدلهای جمنای، از شیوههای توسعهی مسئولانه، از جمله ارزیابی گسترده برای کمک به محدود کردن خطر سوگیری و آسیب احتمالی پیروی کرده است.
- اصالت و خلاقیت. محدودیتهایی در میزان اصالت و خلاقیتی که محتوای تولید شده توسط جمنای میتواند داشته باشد، وجود دارد. این امر به ویژه در مورد نسخهی رایگان صادق است، که در پردازش درخواستهای پیچیده، با مراحل و ظرافتهای متعدد، و تولید خروجی مناسب مشکل داشته است. نسخهی رایگان مبتنی بر مدل زبان بزرگ جمنای پرو است که قابلیتهای محدودتری دارد. نسخههای پولی این پلتفرم دسترسی به ویژگیهای پیشرفتهتری را ارائه میدهند.
نگرانیها در مورد جیمینی چیست؟
یکی از نگرانیها در مورد جمنای حول محور پتانسیل آن برای ارائهی اطلاعات مغرضانه یا نادرست به کاربران میچرخد. هرگونه سوگیری ذاتی در دادههای آموزشی که به جمنای داده میشود، میتواند منجر به احتیاط در بین کاربران شود. به عنوان مثال، همانطور که در مورد تمام نرمافزارهای پیشرفتهی هوش مصنوعی وجود دارد، دادههای آموزشی که گروههای خاصی را در یک جمعیت معین حذف میکنند، منجر به خروجیهای نامتوازن میشوند.
تمایل جمنای به تولید توهمات و سایر ساختهها و انتقال آنها به کاربران به عنوان حقیقت نیز نگرانکننده است. این از زمان پیدایش آن، یکی از بزرگترین خطرات پاسخهای چتجیپیتی بوده است، همانطور که در مورد سایر ابزارهای پیشرفتهی هوش مصنوعی نیز وجود دارد. علاوه بر این، از آنجایی که جمنای همیشه زمینه را درک نمیکند، پاسخهای آن ممکن است همیشه مرتبط با درخواستها و پرسشهایی که کاربران ارائه میدهند، نباشد.
جمنای به چه زبانهایی در دسترس است؟
از جمنای میتوان به بیش از ۴۵ زبان استفاده کرد. این مدل میتواند ورودیهای مبتنی بر متن را با دقتی تقریباً شبیه به انسان به زبانهای مختلف ترجمه کند. گوگل قصد دارد قابلیتهای درک زبان جمنای را گسترش دهد و آن را همهجا حاضر کند. با این حال، عوامل مهمی برای در نظر گرفتن وجود دارد، مانند ممنوعیت محتوای تولید شده توسط مدلهای زبان بزرگ یا تلاشهای نظارتی مداوم در کشورهای مختلف که میتواند استفادهی آینده از جمنای را محدود یا از آن جلوگیری کند.
جمنای علاوه بر ترجمه، قابلیتهای دیگری را در زبانهای مختلف ارائه میدهد. به عنوان مثال، این مدل قادر به استدلال ریاضی و خلاصهسازی به چندین زبان است. همچنین میتواند برای یک تصویر به زبانهای مختلف شرح تولید کند.
آیا تولید تصویر در جمنای در دسترس است؟
پس از انتشار جمنای، گوگل توانایی آن در تولید تصاویر را به همان روش سایر ابزارهای هوش مصنوعی مولد، مانند Dall-E، Midjourney و Stable Diffusion، تبلیغ کرد. جمنای در حال حاضر از مدل متن به تصویر Imagen 2 گوگل استفاده میکند که به این ابزار قابلیتهای تولید تصویر میدهد.
با این حال، در اواخر فوریه ۲۰۲۴، ویژگی تولید تصویر جمنای متوقف شد تا پس از نشان دادن نادرستیهای واقعی در تصاویر تولید شده، دوباره پیکربندی شود. گوگل قصد دارد این ویژگی را بهبود بخشد تا جمنای بتواند در درازمدت چندوجهی باقی بماند.
قبل از اینکه گوگل دسترسی به ویژگی ایجاد تصویر را متوقف کند، خروجیهای جمنای از ساده تا پیچیده، بسته به ورودیهای کاربر نهایی، متغیر بود. کاربران میتوانستند درخواستهای توصیفی را برای استخراج تصاویر خاص ارائه دهند. یک فرآیند گام به گام ساده برای ورود درخواست توسط کاربر، مشاهده تصویر تولید شده توسط جمنای، ویرایش آن و ذخیره آن برای استفاده بعدی لازم بود.
مقایسه جمنای با GPT-3 و GPT-4
گوگل جمنای یک رقیب مستقیم برای مدلهای GPT-3 و GPT-4 از OpenAI است. جدول زیر برخی از ویژگیهای کلیدی محصولات گوگل جمنای و OpenAI را مقایسه میکند.
جمنای | GPT-3 و GPT-4 | |
---|---|---|
توسعهدهنده | گوگل دیپمایند | OpenAI |
رابط چتبات | جمنای؛ قبلاً بارد | ChatGPT |
نوع عملکرد | چندوجهی (متن، تصویر، صدا و ویدیو را درک و ترکیب میکند) | در ابتدا فقط برای پردازش متن طراحی شده بود، اما GPT-4 قابلیت پردازش چندوجهی (متن و تصویر) را نیز دارد. |
نسخههای مختلف مدل | نسخههای مختلف بر اساس اندازه: Ultra (بسیار پیشرفته)، Pro (حرفهای) و Nano (کوچک و بهینه برای دستگاههای موبایل) | نسخههای بهینهشده برای اندازه و عملکرد: GPT-3.5 Turbo و GPT-4 Turbo |
حجم تولید محتوا | ۳۲۰۰۰ توکن (واحد شمارش کلمات و بخشهای کلمات) | ۳۲۰۰۰ توکن |
هم جمنای و هم چتجیپیتی چتباتهای هوش مصنوعی هستند که برای تعامل با افراد از طریق پردازش زبان طبیعی (NLP) و یادگیری ماشین طراحی شدهاند. هر دو از یک مدل زبان بزرگ (LLM) زیربنایی برای تولید و ایجاد متن مکالمه استفاده میکنند.
چتجیپیتی از هوش مصنوعی مولد برای تولید محتوای اصلی استفاده میکند. به عنوان مثال، کاربران میتوانند از آن بخواهند که پایاننامهای در مورد مزایای هوش مصنوعی بنویسد. جمنای نیز از هوش مصنوعی مولد استفاده میکند. هر دو به گونهای طراحی شدهاند که جستجو را طبیعیتر و مفیدتر کنند و همچنین اطلاعات جدید را در پاسخهای خود ترکیب کنند.
در ژانویه ۲۰۲۳، مایکروسافت قراردادی به ارزش گزارش شدهی ۱۰ میلیارد دلار با OpenAI امضا کرد تا مجوز بگیرد و چتجیپیتی را در موتور جستجوی بینگ خود بگنجاند تا نتایج جستجوی مکالمهای بیشتری، مشابه گوگل بارد در آن زمان، ارائه دهد. این امر راه را برای سایر موتورهای جستجو برای دریافت مجوز چتجیپیتی باز کرد، در حالی که جمنای فقط از گوگل پشتیبانی میکند.
یکی دیگر از شباهتهای بین این دو چتبات، پتانسیل آنها برای تولید محتوای سرقت ادبی و توانایی آنها در کنترل این موضوع است. نه جمنای و نه چتجیپیتی ویژگیهای تشخیص سرقت ادبی داخلی ندارند که کاربران بتوانند برای تأیید اصالت خروجیها به آنها تکیه کنند. با این حال، ابزارهای جداگانهای برای تشخیص سرقت ادبی در محتوای تولید شده توسط هوش مصنوعی وجود دارد، بنابراین کاربران گزینههای دیگری دارند. جمنای قادر است در پاسخهای خود به محتوای دیگر استناد کند و به منابع پیوند دهد. عملکرد بررسی مجدد جمنای، URLهایی را به منابع اطلاعاتی که از آنها برای تولید محتوا بر اساس یک درخواست استفاده میکند، ارائه میدهد.
جایگزینهای گوگل جمنای
گوگل جمنای اولین چتبات هوش مصنوعی نیست. چتباتهای مبتنی بر هوش مصنوعی با قابلیتهای کمتر، برای مدتها وجود داشتهاند. چندین شرکت استارتآپ، فناوریهای مشابهی برای چتباتها توسعه دادهاند، اما هیچکدام به اندازهی چتجیپیتی مورد توجه قرار نگرفتهاند.
بر اساس گفتههای آدری چیرید، تحلیلگر ارشد در مؤسسهی تحقیقاتی فارستر و سایر کارشناسان این حوزه، نمونههایی از رقبای چتبات جمنای که متن یا کد اصلی تولید میکنند، عبارتند از:
- چتسونیک (Chatsonic) : چتسونیک که با عنوان «جایگزین چتجیپیتی با ابرقدرتها» تبلیغ میشود، یک چتبات هوش مصنوعی است که با جستجوی گوگل و یک تولیدکنندهی متن مبتنی بر هوش مصنوعی به نام رایتسونیک (Writesonic) کار میکند. این ابزار به کاربران امکان میدهد در زمان واقعی در مورد موضوعات مختلف بحث کنند تا متن یا تصویر ایجاد کنند.
- کلود (Claude) : کلود یک چتبات مبتنی بر هوش مصنوعی از شرکت Anthropic است که نام آن برگرفته از مدل زبان بزرگ زیربنایی آن است. این چتبات تحت آزمایشهای سختگیرانهای قرار گرفته تا اطمینان حاصل شود که با استانداردهای هوش مصنوعی اخلاقی مطابقت دارد و خروجی توهینآمیز یا نادرست از لحاظ واقعیت تولید نمیکند.
- کپی.ای (Copy.ai) : کپی.ای در ابتدا برای کمک به تیمهای فروش و بازاریابی ساخته شد. این ابزار متنهای اصلی مانند پستهای رسانههای اجتماعی، وبلاگها، ایمیلها و سایر انواع محتوا را تولید میکند و همچنین وظایف گردش کار را خودکار میکند.
- گیتهاب کوپایلوت (GitHub Copilot) : گیتهاب کوپایلوت در تولید کد برای توسعهدهندگان تخصص دارد. هدف این ابزار سادهسازی وظایف توسعهی نرمافزار است که در غیر این صورت در تولید نرمافزارهای مدرن خستهکننده هستند. در حالی که این ابزار برای تولید متن ساخته نشده است، اما به عنوان جایگزینی مناسب برای چتجیپیتی یا جمنای برای تولید کد عمل میکند.
- جاسپر چت (Jasper Chat) : جاسپر چت از شرکت Jasper.ai یک ابزار هوش مصنوعی مکالمهمحور است که روی تولید متن تمرکز دارد. این ابزار برای شرکتهایی طراحی شده است که به دنبال ایجاد محتوای مرتبط با برند خود و گفتگو با مشتریان هستند. جسپر چت به تولیدکنندگان محتوا این امکان را میدهد تا کلمات کلیدی بهینهسازی برای موتورهای جستجو و لحن متن را در درخواستهای خود مشخص کنند.
- مایکروسافت بینگ : شرکت مایکروسافت با مشارکت خود با OpenAI دقیقاً همان کاری را انجام میدهد که گوگل با جمنای انجام میدهد: جستجوی مبتنی بر هوش مصنوعی که پرسشهای زبان طبیعی را تشخیص میدهد و پاسخهای زبان طبیعی ارائه میدهد. وقتی کاربری یک عبارت را جستجو میکند، نتایج استاندارد جستجوی بینگ و پاسخی را که توسط GPT-4 تولید شده است، دریافت میکند. همچنین کاربر میتواند با هوش مصنوعی در مورد پاسخ آن تعامل داشته باشد.
- اسپینبوت (SpinBot) : این ابزار هوش مصنوعی مولد در تولید متن اصلی و همچنین بازنویسی محتوا و اجتناب از سرقت ادبی تخصص دارد. اسپینبوت وظایف سادهی دیگری را نیز برای کمک به متخصصان در نوشتن تکالیف، مانند غلطیابی، انجام میدهد.
- یوچت (YouChat) : یوچت، چتبات هوش مصنوعی از موتور جستجوی You.com است که در آلمان مستقر است. یوچت به سوالات پاسخ میدهد و منابع پاسخهای خود را ارائه میدهد تا کاربران بتوانند منابع را بررسی کنند و صحت پاسخها را تأیید نمایند.
تاریخچه و آینده جمنای
جمنای، تحت نام اصلی خود یعنی بارد، در ابتدا حول محور جستجو طراحی شده بود. هدف آن ارائهی پرسشهای زبان طبیعیتر، به جای کلمات کلیدی، برای جستجو بود. هوش مصنوعی آن حول پرسشها و پاسخهای مکالمهای طبیعی آموزش دیده بود. به جای ارائهی لیستی از پاسخها، به پاسخها زمینه میداد. بارد برای کمک به سؤالات پیگیری طراحی شده بود – چیزی جدید در جستجو. همچنین دارای یک عملکرد اشتراکگذاری مکالمه و یک عملکرد بررسی مجدد بود که به کاربران در بررسی صحت نتایج تولید شده کمک میکرد.
بارد همچنین با چندین برنامه و سرویس گوگل، از جمله یوتیوب، مپس، هتلز، فلایتس، جیمیل، داکس و درایو ادغام شده بود و به کاربران امکان میداد از ابزار هوش مصنوعی در محتوای شخصی خود استفاده کنند.
اولین نسخهی بارد از نسخهای سبکتر از مدل Lamda استفاده میکرد که برای مقیاسبندی به کاربران همزمان بیشتر، به قدرت محاسباتی کمتری نیاز داشت. گنجاندن مدل زبانی Palm 2 به بارد این امکان را داد که در پاسخهای خود به پرسشهای کاربر، تصویریتر باشد. بارد همچنین Google Lens را در خود جای داده بود و به کاربران اجازه میداد علاوه بر درخواستهای نوشتاری، تصاویر را نیز آپلود کنند. گنجاندن بعدی مدل زبانی جمنای، استدلال، برنامهریزی و درک پیشرفتهتری را امکانپذیر کرد.
سپس، به عنوان بخشی از راهاندازی اولیهی جمنای در ۶ دسامبر ۲۰۲۳، گوگل در مورد آیندهی مدلهای زبان بزرگ نسل بعدی خود راهنمایی ارائه کرد. در حالی که گوگل در آن روز جمنای Ultra، Pro و Nano را معرفی کرد، Ultra را همزمان با Pro و Nano در دسترس قرار نداد. در ابتدا، Ultra فقط برای مشتریان، توسعهدهندگان، شرکا و متخصصان منتخب در دسترس بود. این مدل به طور کامل در فوریه ۲۰۲۴ منتشر شد.
آیندهی جمنای همچنین در مورد عرضهی گستردهتر و ادغام در سراسر پورتفولیوی گوگل است. جمنای در نهایت در مرورگر گوگل کروم گنجانده خواهد شد تا تجربهی وب را برای کاربران بهبود بخشد. گوگل همچنین متعهد شده است که جمنای را در پلتفرم Google Ads ادغام کند و راههای جدیدی را برای تبلیغکنندگان برای ارتباط و تعامل با کاربران فراهم کند. دستیار Duet AI نیز قرار است در آینده از جمنای بهرهمند شود.
در ۱۵ فوریه ۲۰۲۴، گوگل آزمایش اولیهی جمنای ۱.۵ را اعلام کرد. این نسخه برای طیف وسیعی از وظایفی که در آنها مشابه جمنای ۱.۰ Ultra عمل میکند، بهینه شده است، اما با یک ویژگی آزمایشی اضافی متمرکز بر درک متن طولانی. به گفتهی گوگل، آزمایشهای اولیه نشان میدهد که جمنای ۱.۵ پرو در حدود ۸۷ درصد از معیارهای گوگل که برای توسعهی مدلهای زبان بزرگ تعیین شده است، از ۱.۰ پرو عملکرد بهتری دارد. انتظار میرود آزمایشهای مداوم تا زمان اعلام عرضهی کامل ۱.۵ پرو ادامه داشته باشد.
بهروزرسانیهای اخیر گوگل جمنای
در مه ۲۰۲۴، گوگل در کنفرانس Google I/O از پیشرفتهای بیشتر در Google 1.5 Pro خبر داد. این بهروزرسانیها شامل بهبود عملکرد در ویژگیهای ترجمه، کدنویسی و استدلال است. Google 1.5 Pro ارتقا یافته همچنین درک تصویر و ویدیو را بهبود بخشیده است، از جمله توانایی پردازش مستقیم ورودیهای صوتی با استفاده از درک صوتی بومی. پنجرهی متن مدل به ۱ میلیون توکن افزایش یافته است و آن را قادر میسازد هنگام پاسخ به درخواستها، اطلاعات بسیار بیشتری را به خاطر بسپارد.
همچنین در ماه مه، جمنای ۱.۵ فلش، یک مدل کوچکتر با میانگین تأخیر کمتر از یک ثانیه برای اولین توکن و پنجرهی متن ۱ میلیون توکنی منتشر شد.
علاوه بر ارتقاء مدل اصلی، گوگل ویژگیهای جدیدی را برای API جمنای در ماه مه اعلام کرد، از جمله موارد زیر:
- استخراج فریم ویدیو. کاربران میتوانند یک ویدیو را برای تولید محتوا آپلود کنند.
- فراخوانی موازی تابع. کاربران میتوانند بیش از یک فراخوانی تابع را به طور همزمان انجام دهند.
فروشنده قصد دارد در ماه ژوئن، حافظهپنهان زمینه را اضافه کند تا اطمینان حاصل شود که کاربران فقط یک بار مجبور به ارسال بخشهایی از یک درخواست به یک مدل هستند.
هم جمنای ۱.۵ پرو و هم جمنای ۱.۵ فلش در بیش از ۲۰۰ کشور و منطقه در دسترس هستند.
گوگل جمنای ۲.۰ فلش را در ۱۱ دسامبر ۲۰۲۴، در یک پیشنمایش آزمایشی از طریق Vertex AI Gemini API و AI Studio معرفی کرد. ۲.۰ فلش دو برابر سریعتر از ۱.۵ پرو است و قابلیتهای جدیدی از جمله ورودی چندوجهی و خروجی متن شامل صدا و تصاویر و درک متن طولانی دارد. حالتهای جدید همچنین شامل قابلیتهای تبدیل متن به گفتار برای ویرایش تصویر و هنر است. API جدید دارای برنامههای پخش جریانی صدا برای کمک به استفاده از ابزار بومی و بهبود تأخیر است. گوگل قصد دارد این مدل جدید را در ژانویه ۲۰۲۵ برای مخاطبان بیشتری عرضه کند.
لیست مدلهای زبان بزرگ موجود همچنان در حال افزایش است. دربارهی مدلهای زبان بزرگ برتر، از جمله مدلهای شناخته شده و سایر مدلهایی که مبهمتر هستند، اطلاعات کسب کنید.