ساندار پیچای، مدیر عامل گوگل، از راه اندازی Gemini 2.0 خبر داد، مدلی که نشان دهنده گام بعدی در جاه طلبی گوگل برای ایجاد انقلابی در هوش مصنوعی است.
یک سال پس از معرفی مدل Gemini 1.0، این ارتقاء بزرگ دارای قابلیتهای چندوجهی پیشرفته، عملکرد عاملی و ابزارهای کاربر نوآورانه است که برای جابجایی مرزها در فناوری مبتنی بر هوش مصنوعی طراحی شدهاند.
جهش به سمت هوش مصنوعی تحول آفرین
پیچای با تأمل در ماموریت ۲۶ ساله گوگل برای سازماندهی و در دسترس ساختن اطلاعات جهان، خاطرنشان کرد: “اگر Gemini 1.0 در مورد سازماندهی و درک اطلاعات بود، Gemini 2.0 در مورد مفیدتر کردن آن است.”
Gemini 1.0 که در دسامبر ۲۰۲۲ منتشر شد، به دلیل اینکه اولین مدل هوش مصنوعی چندوجهی بومی گوگل بود، قابل توجه بود. اولین تکرار در درک و پردازش متن، ویدئو، تصاویر، صدا و کد عالی بود. نسخه ۱.۵ بهبودیافته آن به دلیل درک متن طولانی خود، به طور گسترده ای مورد استقبال توسعه دهندگان قرار گرفت و برنامه هایی مانند NotebookLM متمرکز بر بهره وری را قادر می سازد.
اکنون، با Gemini 2.0، گوگل قصد دارد نقش هوش مصنوعی را به عنوان یک دستیار جهانی که قادر به تولید تصویر و صدا بومی، استدلال و برنامه ریزی بهتر، و توانایی های تصمیم گیری در دنیای واقعی است، تسریع بخشد. به قول پیچای، توسعه نشان دهنده طلوع یک «عصر عاملی» است.
پیچای توضیح داد: «ما در توسعه مدلهای عاملی بیشتر سرمایهگذاری کردهایم، به این معنی که آنها میتوانند اطلاعات بیشتری در مورد دنیای اطراف شما داشته باشند، قدمهای متعددی را پیشتر بیندیشند و از طرف شما با نظارت شما اقدام کنند.»
Gemini 2.0: ویژگی های اصلی و در دسترس بودن
در مرکز اطلاعیه امروز، عرضه آزمایشی Gemini 2.0 Flash، مدل پرچمدار نسل دوم Gemini است. این بر اساس پایه هایی است که توسط پیشینیان خود گذاشته شده است و زمان پاسخگویی سریع تر و عملکرد پیشرفته را ارائه می دهد.
Gemini 2.0 Flash از ورودی ها و خروجی های چندوجهی پشتیبانی می کند، از جمله توانایی تولید تصاویر بومی در ارتباط با متن و تولید صدای چندزبانه تبدیل متن به گفتار قابل هدایت. علاوه بر این، کاربران می توانند از یکپارچه سازی ابزارهای بومی مانند جستجوی گوگل و حتی توابع تعریف شده توسط شخص ثالث بهره مند شوند.
توسعهدهندگان و کسبوکارها از طریق Gemini API در Google AI Studio و Vertex AI به Gemini 2.0 Flash دسترسی خواهند داشت ، در حالی که اندازههای مدل بزرگتر برای عرضه گستردهتر در ژانویه ۲۰۲۴ برنامهریزی شده است.
برای دسترسی جهانی، برنامه Gemini اکنون یک نسخه بهینه شده برای چت از مدل آزمایشی ۲.۰ Flash دارد. پذیرندگان اولیه می توانند این دستیار به روز شده را روی دسکتاپ و موبایل تجربه کنند، در حالی که عرضه برنامه تلفن همراه قریب الوقوع است.
محصولاتی مانند جستجوی گوگل نیز با Gemini 2.0 بهبود مییابند و توانایی رسیدگی به پرس و جوهای پیچیده مانند مسائل ریاضی پیشرفته، پرسشهای کدنویسی و سؤالات چندوجهی را باز میکنند.
مجموعه ای جامع از نوآوری های هوش مصنوعی
راه اندازی Gemini 2.0 با ابزارهای جدید قانع کننده ای همراه است که قابلیت های آن را به نمایش می گذارد.
یکی از این ویژگی ها، Deep Research، به عنوان یک دستیار تحقیقاتی هوش مصنوعی عمل می کند و فرآیند بررسی موضوعات پیچیده را با جمع آوری اطلاعات در گزارش های جامع ساده می کند. ارتقای دیگر جستجو را با مرورهای هوش مصنوعی مجهز به Gemini که به سوالات پیچیده و چند مرحله ای کاربر رسیدگی می کند، بهبود می بخشد.
این مدل با استفاده از واحدهای پردازش تانسور (TPUs) نسل ششم گوگل، موسوم به Trillium، آموزش داده شده است، که Pichai میگوید: «۱۰۰ درصد از آموزش و استنتاج Gemini 2.0 را تأمین میکرد.»
Trillium اکنون برای توسعه دهندگان خارجی در دسترس است و به آنها امکان می دهد از همان زیرساختی بهره مند شوند که از پیشرفت های خود گوگل پشتیبانی می کند.
تجربیات عامل پیشگام
همراه Gemini 2.0 نمونه های اولیه آزمایشی “عاملی” هستند که برای بررسی آینده همکاری انسان و هوش مصنوعی ساخته شده اند، از جمله:
- Project Astra: یک دستیار جهانی هوش مصنوعی
Project Astra که برای اولین بار در I/O در اوایل سال جاری معرفی شد، از درک چندوجهی Gemini 2.0 برای بهبود تعاملات هوش مصنوعی در دنیای واقعی بهره می برد. آزمایشکنندگان معتمد دستیار را در Android آزمایش کردهاند و بازخوردی ارائه میدهند که به اصلاح گفتگوی چندزبانه، حفظ حافظه و ادغام با ابزارهای Google مانند جستجو، لنز، و Maps کمک کرده است. Astra همچنین تأخیر مکالمه نزدیک به انسان را نشان داده است و تحقیقات بیشتری برای کاربرد آن در فناوریهای پوشیدنی، مانند نمونه اولیه عینکهای هوش مصنوعی در حال انجام است.
- پروژه مارینر: تعریف مجدد اتوماسیون وب
Project Mariner یک دستیار آزمایشی مرور وب است که از توانایی Gemini 2.0 برای استدلال در متن، تصاویر و عناصر تعاملی مانند فرمهای درون مرورگر استفاده میکند. در آزمایشهای اولیه، به میزان موفقیت ۸۳.۵ درصدی در معیار WebVoyager برای تکمیل وظایف وب انتها به انتها دست یافت. آزمایشکنندگان اولیه که از افزونه Chrome استفاده میکنند به اصلاح قابلیتهای Mariner کمک میکنند، در حالی که Google اقدامات ایمنی را ارزیابی میکند که اطمینان حاصل میکند که این فناوری کاربرپسند و ایمن باقی میماند.
- جولز: یک عامل برنامه نویسی برای توسعه دهندگان
جولز، یک دستیار مبتنی بر هوش مصنوعی که برای توسعه دهندگان ساخته شده است، مستقیماً در جریان های کاری GitHub ادغام می شود تا چالش های کدنویسی را برطرف کند. میتواند بهطور مستقل راهحلها را پیشنهاد کند، برنامههایی ایجاد کند، و وظایف مبتنی بر کد را اجرا کند – همه تحت نظارت انسان. این تلاش آزمایشی بخشی از هدف بلند مدت گوگل برای ایجاد عوامل هوش مصنوعی همه کاره در دامنه های مختلف است.
- برنامه های بازی و فراتر از آن
Google DeepMind با گسترش دسترسی Gemini 2.0 به محیط های مجازی، با شرکای بازی مانند Supercell بر روی عوامل بازی هوشمند کار می کند. این همراهان آزمایشی هوش مصنوعی میتوانند اقدامات بازی را در زمان واقعی تفسیر کنند، استراتژیها را پیشنهاد کنند و حتی از طریق جستجو به دانش گستردهتری دسترسی داشته باشند. تحقیقات همچنین در حال انجام است که چگونه استدلال فضایی Gemini 2.0 می تواند از روباتیک پشتیبانی کند و درهایی را برای کاربردهای دنیای فیزیکی در آینده باز کند.
پرداختن به مسئولیت در توسعه هوش مصنوعی
با گسترش قابلیتهای هوش مصنوعی، گوگل بر اهمیت اولویتبندی ملاحظات ایمنی و اخلاقی تأکید میکند.
گوگل ادعا میکند که Gemini 2.0 تحت ارزیابیهای ریسک گستردهای قرار گرفته است که با نظارت کمیته مسئولیت و ایمنی برای کاهش خطرات احتمالی تقویت شده است. بهعلاوه، تواناییهای استدلال تعبیهشده آن به «تیم قرمز» پیشرفته اجازه میدهد، که توسعهدهندگان را قادر میسازد تا سناریوهای امنیتی را ارزیابی کرده و اقدامات ایمنی را در مقیاس بهینه کنند.
گوگل همچنین در حال بررسی پادمان هایی برای رسیدگی به حریم خصوصی کاربران، جلوگیری از سوء استفاده و اطمینان از قابل اعتماد ماندن عوامل هوش مصنوعی است. به عنوان مثال، Project Mariner به گونه ای طراحی شده است که دستورالعمل های کاربر را در اولویت قرار دهد و در عین حال در برابر تزریق سریع مخرب مقاومت کند و از تهدیداتی مانند فیشینگ یا تراکنش های جعلی جلوگیری کند. در همین حال، کنترلهای حریم خصوصی در Project Astra مدیریت دادههای جلسه و اولویتهای حذف را برای کاربران آسان میکند.
پیچای مجدداً بر تعهد شرکت به توسعه مسئولانه تاکید کرد و گفت: “ما قویاً معتقدیم که تنها راه ایجاد هوش مصنوعی این است که از ابتدا مسئولیت پذیر باشیم.”
با انتشار Gemini 2.0 Flash، گوگل به چشم انداز خود برای ساختن یک دستیار جهانی که قادر به تغییر تعاملات بین دامنه ها باشد، نزدیک تر می شود.