مجله خبری و آموزشی هوش مصنوعی

OpenAI مدل‌های جدید هوش مصنوعی o3 را معرفی کرد

توسط آرش خیری
منتشر شده: آخرین بروز رسانی در تاریخ ۰ اظهار نظر

OpenAI بزرگترین رونمایی خود را برای آخرین روز  رویداد ۱۲ روزه “shipmas” خود نگه داشته بود.

در روز جمعه، این شرکت از o3، جانشین  مدل o1  “reasoning” که در اوایل سال منتشر شد، رونمایی کرد. o3 یک خانواده مدل است، به عبارت دقیق تر – همانطور که در مورد o1 بود. o3 و o3-mini – یک مدل کوچکتر تقطیر شده که برای کارهای خاص تنظیم شده است – در این خانواده قرار دارد.

OpenAI این ادعای قابل توجه را دارد که o3، حداقل در شرایط خاص، به  AGI نزدیک می شود  – با اخطارهای قابل توجه.

 

چرا مدل جدید o3 نامیده شده و نه o2؟ ممکن است از نظر علائم تجاری ممکن است ایراد به نظر برسد.  طبق  اطلاعات احراز شده، OpenAI برای جلوگیری از درگیری احتمالی با ارائه‌دهنده مخابرات بریتانیایی O2، از نام o2 برای مدل جدید خود صرفنظر کرد. مدیر عامل شرکت سام آلتمن تا حدودی این موضوع را در جریان پخش زنده صبح امروز تایید کرد. 

نه o3 و نه o3-mini هنوز به طور گسترده در دسترس نیستند، اما محققان ایمنی می توانند از امروز برای یک پیش نمایش o3-mini ثبت نام کنند. و پس از مدتی نوبت به پیشنمایش o3 می‌رسد. OpenAI زمانی برای آن مشخص نکرد. آلتمن گفت که برنامه این است که o3-mini را در اواخر ژانویه ارایه کنیم و به دنبال آن نیز o3 عرضه خواهد شد.

این کمی با اظهارات اخیر او در تضاد است. آلتمن در  مصاحبه ای  این هفته گفته بود که قبل از اینکه OpenAI مدل های استدلالی جدید را منتشر کند، یک چارچوب آزمایشی فدرال را برای هدایت نظارت و کاهش خطرات چنین مدل هایی مورد آزمایش قرار خواهد داد.

درباره مدل‌های جدید هشدارهایی نیز وجود دارد. آزمایش‌کنندگان ایمنی هوش مصنوعی  دریافته‌اند  که توانایی‌های استدلالی o1 باعث می‌شود تا با سرعت بالاتری نسبت به مدل‌های معمولی و «غیر استدلالی» – یا مدل‌های پیشرو هوش مصنوعی متا، آنتروپیک و گوگل، کاربران انسانی را فریب دهد. این امکان وجود دارد که o3 سعی کند با نرخی حتی بالاتر از نسل قبلی خود فریب دهد. زمانی که شرکای تیم قرمز OpenAI نتایج آزمایش خود را منتشر کنند، متوجه این موضوعات خواهیم شد.

با توجه به اهمیت موضوع، OpenAI می‌گوید که از یک تکنیک جدید با نام “تنظیم مشورتی” استفاده می کند تا مدل‌هایی مانند o3 را با اصول ایمنی خود هماهنگ کند. (برای o1 نیز از همین تکنیک استفاده شد) این شرکت در یک  مطالعه جدید جزئیات کار خود را ارائه کرده است.

مراحل استدلال

برخلاف بیشتر مدل‌های هوش مصنوعی، مدل‌های استدلالی مانند o3 به‌طور مؤثر خود را مورد بررسی قرار می‌دهند، که  به آن‌ها کمک می‌کند از برخی از دام‌هایی که معمولاً مدل‌ها را به خطر می‌اندازند، اجتناب کنند.

این فرآیند بررسی واقعیت دارای تأخیر خاصی است. o3، مانند مدل قبلی‌اش o1، در مقایسه با یک مدل معمولی غیر استدلالی، کمی بیشتر – معمولاً چند ثانیه تا چند دقیقه – طول می‌کشد تا به راه حل‌ها برسد. میزان این تاخیر زیاد است؟ در عوض، پاسخ‌های این مدل در حوزه هایی مانند فیزیک، علوم و ریاضیات قابل اعتمادتر است.

 o3 قبل از پاسخ دادن از طریق آنچه OpenAI به عنوان یک “زنجیره خصوصی از افکار” توصیف می‌کند، از طریق یادگیری تقویتی آموزش دیده است. این مدل برای یافتن راه‌حل ها، از طریق یک وظیفه به استدلال می‌پردازد و برنامه ریزی می‌کند و یک سری اقدامات را در یک دوره طولانی انجام می‌دهد.

 

در عمل، با ارسال یک پرامپت، o3 قبل از پاسخ دادن مکث می‌کند، تعدادی از درخواست‌های مرتبط را در نظر می‌گیرد و استدلال خود را در طول مسیر “توضیح می‌دهد”. پس از مدتی، مدل آنچه را که دقیق‌ترین پاسخ می‌داند، به طور خلاصه ارایه می‌دهد.

تمایز مهم مدل جدید o3 در مقابل o1 توانایی “تنظیم” زمان استدلال است. مدل ها را می‌توان روی محاسبه (یا زمان استدلال) کم، متوسط ​​یا زیاد تنظیم کرد. هرچه میزان محاسبه بالاتر باشد، o3 در آن کار عملکرد بهتری خواهد داشت.

مدل های استدلالی مانند o3 فارغ از آن که چقدر امکانات محاسباتی در اختیار دارند، بی عیب و نقص نیستند. در حالی که استدلال می تواند  توهمات  و خطاها را کاهش دهد، آنها را از بین نمی برد.

نتایج بنچمارک ها و AGI

یک سوال بزرگ که امروز مطرح شد این بود که آیا OpenAI ممکن است ادعا کند که جدیدترین مدل های آن در حال نزدیک شدن به AGI هستند یا خیر.

AGI، مخفف “هوش عمومی مصنوعی” یا artificial general intelligence، به طور کلی به هوش مصنوعی‌ای اشاره دارد که می‌تواند هر کاری را که یک انسان قادر به انجام آن است انجام دهد. OpenAI تعریف خاص خود را دارد: «سیستم‌های بسیار خودمختار که از نظر اقتصادی از انسان‌ها بهتر عمل می‌کنند».

دستیابی به AGI یک ادعای جسورانه خواهد بود. و البته پیامدهای اقتصادی برای OpenAI دارد. طبق شرایط قرارداد OpenAI با شریک نزدیک و سرمایه‌گذار بزرگش یعنی مایکروسافت، هنگامی که OpenAI به AGI رسید، دیگر موظف نیست به مایکروسافت دسترسی به پیشرفته‌ترین فناوری‌های خود (آنهایی که با تعریف OpenAI از AGI مطابقت دارند) را بدهد.

با یک معیار، OpenAI به آرامی در حال نزدیک شدن به AGI است. در بنچمارک ARC-AGI، آزمایشی که برای ارزیابی اینکه آیا یک سیستم هوش مصنوعی می‌تواند به طور موثر مهارت‌های جدیدی را خارج از داده‌هایی که روی آن آموزش دیده است، به دست آورد یا خیر، طراحی شده است، o3 به امتیاز ۸۷.۵ درصد در تنظیمات محاسباتی بالا دست یافت. در بدترین حالت (در تنظیمات محاسباتی کم)، این مدل عملکردی معادل سه برابر مدل o1 دارد.

طبق گفته فرانسوا شولت ، یکی از خالقان ARC-AGI، تنظیمات محاسباتی بالا بسیار گران بود – به ترتیب هزاران دلار در هر چالش  .

 

Chollet همچنین خاطرنشان کرد که o3 در “وظایف بسیار آسان” در ARC-AGI شکست می‌خورد، که به نظر او نشان می‌دهد که این مدل “تفاوت‌های اساسی” با هوش انسانی را نشان می‌دهد. او  قبلاً به  محدودیت‌های ارزیابی اشاره کرده است و نسبت به استفاده از آن به عنوان معیاری برای سنجش هوش مصنوعی هشدار داده است.

داده‌های اولیه نشان می‌دهد که [جانشین بنچمارک ARC-AGI] آتی همچنان چالش مهمی برای o3 ایجاد می‌کند و به طور بالقوه امتیاز آن را حتی در محاسبات بالا به کمتر از ۳۰ درصد کاهش می‌دهد (در حالی که یک انسان باهوش همچنان قادر خواهد بود بدون هیچ تمرینی امتیازی بالای ۹۵٪ کسب کند)” Chollet در بیانیه ای ادامه داد. زمانی مشخص می‌شود به AGI دست یافته‌ایم که انجام کارهایی که برای انسان‌های معمولی آسان اما برای هوش مصنوعی سخت است، به سادگی غیرممکن شود.

اتفاقا، OpenAI می‌گوید که با بنیاد ARC-AGI همکاری خواهد کرد تا به آن کمک کند تا نسل بعدی بنچمارک هوش مصنوعی خود، ARC-AGI 2 را بسازد.

در بنچمارک‌های دیگر، o3 به معنای واقعی کلمه می‌ترکاند.

این مدل در بنچمارک SWE-Bench Verified، یک معیار متمرکز بر وظایف برنامه نویسی، ۲۲.۸ درصد بهتر از o1 است و به رتبه ۲۷۲۷ Codeforces – معیار دیگری از مهارت های کدنویسی – می رسد. (رتبه ۲۴۰۰ یک مهندس را در مقام ۹۹.۲ از صد قرار می دهد. ) o3 در آزمون American Invitational Mathematics Exam برای سال ۲۰۲۴ امتیاز ۹۶.۷٪ را کسب می‌کند. در این امتحان، تنها یک سؤال را از پاسخ نمی‌دهد. و در GPQA Diamond، مجموعه ای از سؤالات زیست شناسی، فیزیک و شیمی در سطح فارغ التحصیلی، به ۸۷.۷ درصد می‌رسد. در نهایت، o3 یک رکورد جدید در بنچمارک EpochAI’s Frontier Math ایجاد می کند و ۲۵.۲٪ از مسائل را حل می کند. هیچ مدل دیگری قادر به حل بیش از ۲٪ مسایل نیست.

 

البته این ادعاها را باید کمی شوخی در نظر گرفت. این افراد از ارزیاب‌های داخلی OpenAI هستند. باید منتظر بمانیم تا ببینیم این مدل در آینده چگونه از پس بنچمارک‌های مشتریان و سازمان‌های خارجی برخواهد آمد.

ادامه روند پیشرفت چگونه خواهد بود؟

پس از انتشار اولین سری از مدل‌های استدلال OpenAI، مدل‌های استدلالی از شرکت‌های رقیب هوش مصنوعی –  از جمله  گوگل – به‌وجود آمد. در اوایل نوامبر، DeepSeek، یک شرکت تحقیقاتی هوش مصنوعی که توسط معامله گران کوانت تامین می شود، پیش نمایشی از اولین مدل استدلال خود،  DeepSeek-R1 را ارائه کرد . در همان ماه، تیم Qwen علی‌بابا   از چیزی که ادعا می‌کرد اولین رقیب «باز» برای o1 است (به این معنا که می‌توان آن را دانلود، تنظیم دقیق و به صورت محلی اجرا کرد) رونمایی کرد .

هنوز همه متقاعد نشده‌اند  که مدل‌های استدلالی بهترین راه برای حرکت رو به جلو هستند. به دلیل قدرت محاسباتی زیادی که برای اجرای آنها لازم است، آنها معمولاً گران هستند. و در حالی که مدل‌های استدلالی تاکنون در بنچمارک ها عملکرد خوبی داشته اند، مشخص نیست که آیا می‌توانند این میزان از پیشرفت را حفظ کنند یا خیر.

جالب اینجاست که انتشار o3 همزمان با خروج یکی از موفق‌ترین دانشمندان OpenAI صورت می‌گیرد. الک رادفورد، نویسنده اصلی مقاله آکادمیک که “سری GPT” از مدل‌های هوش مصنوعی مولد OpenAI (یعنی GPT-3، GPT-4 و غیره) را آغاز کرد، این هفته اعلام کرد که برای پیگیری تحقیقات مستقل این شرکت را ترک می‌کند.

 

خلاصه این مقاله:

  • معرفی o3 و o3-mini: مدل o3 در کارهای پیچیده مانند ریاضی، کدنویسی و استدلال علمی برتری دارد، در حالی که o3-mini یک نسخه سریعتر و کوچکتر است که برای کارهای کدنویسی مناسب است.
  • عملکرد چشمگیر: o3 در حال نشان دادن مهارت های خود با امتیازات قابل توجه در بنچمارک‌های مختلف است، از جمله ۷۱.۷% در SWE-bench و صدک خیره کننده ۹۹.95th در Codeforces.
  • دسترسی پیش‌نمایش: اگرچه این مدل‌ها هنوز در دسترس عموم قرار نگرفته‌اند، اما محققان ایمنی می‌توانند برای یک آزمایش کوتاه ثبت‌نام کنند و انتظار می‌رود o3-mini در اوایل سال ۲۰۲۵ معرفی شود.
  • اهمیت ایمنی: OpenAI بر تضمین ایمنی متمرکز است، زیرا o3 هنوز در حال آزمایش کامل قبل از آماده شدن برای دسترسی گسترده‌تر است.

 

منبع

این مطالب هم پیشنهاد می‌شود

پیام بگذارید