OpenAI بزرگترین رونمایی خود را برای آخرین روز رویداد ۱۲ روزه “shipmas” خود نگه داشته بود.
در روز جمعه، این شرکت از o3، جانشین مدل o1 “reasoning” که در اوایل سال منتشر شد، رونمایی کرد. o3 یک خانواده مدل است، به عبارت دقیق تر – همانطور که در مورد o1 بود. o3 و o3-mini – یک مدل کوچکتر تقطیر شده که برای کارهای خاص تنظیم شده است – در این خانواده قرار دارد.
OpenAI این ادعای قابل توجه را دارد که o3، حداقل در شرایط خاص، به AGI نزدیک می شود – با اخطارهای قابل توجه.
o3، آخرین مدل استدلالی ما، یک پیشرفت قابل توجه است، با نمایش بهبود عملکرد پله ای در سخت ترین بنچمارکها. ما در حال حاضر تست ایمنی و تیم قرمز را شروع کردهایم. https://t.co/4XlK1iHxFK
— گرگ براکمن (@gdb) ۲۰ دسامبر ۲۰۲۴
چرا مدل جدید o3 نامیده شده و نه o2؟ ممکن است از نظر علائم تجاری ممکن است ایراد به نظر برسد. طبق اطلاعات احراز شده، OpenAI برای جلوگیری از درگیری احتمالی با ارائهدهنده مخابرات بریتانیایی O2، از نام o2 برای مدل جدید خود صرفنظر کرد. مدیر عامل شرکت سام آلتمن تا حدودی این موضوع را در جریان پخش زنده صبح امروز تایید کرد.
نه o3 و نه o3-mini هنوز به طور گسترده در دسترس نیستند، اما محققان ایمنی می توانند از امروز برای یک پیش نمایش o3-mini ثبت نام کنند. و پس از مدتی نوبت به پیشنمایش o3 میرسد. OpenAI زمانی برای آن مشخص نکرد. آلتمن گفت که برنامه این است که o3-mini را در اواخر ژانویه ارایه کنیم و به دنبال آن نیز o3 عرضه خواهد شد.
این کمی با اظهارات اخیر او در تضاد است. آلتمن در مصاحبه ای این هفته گفته بود که قبل از اینکه OpenAI مدل های استدلالی جدید را منتشر کند، یک چارچوب آزمایشی فدرال را برای هدایت نظارت و کاهش خطرات چنین مدل هایی مورد آزمایش قرار خواهد داد.
درباره مدلهای جدید هشدارهایی نیز وجود دارد. آزمایشکنندگان ایمنی هوش مصنوعی دریافتهاند که تواناییهای استدلالی o1 باعث میشود تا با سرعت بالاتری نسبت به مدلهای معمولی و «غیر استدلالی» – یا مدلهای پیشرو هوش مصنوعی متا، آنتروپیک و گوگل، کاربران انسانی را فریب دهد. این امکان وجود دارد که o3 سعی کند با نرخی حتی بالاتر از نسل قبلی خود فریب دهد. زمانی که شرکای تیم قرمز OpenAI نتایج آزمایش خود را منتشر کنند، متوجه این موضوعات خواهیم شد.
با توجه به اهمیت موضوع، OpenAI میگوید که از یک تکنیک جدید با نام “تنظیم مشورتی” استفاده می کند تا مدلهایی مانند o3 را با اصول ایمنی خود هماهنگ کند. (برای o1 نیز از همین تکنیک استفاده شد) این شرکت در یک مطالعه جدید جزئیات کار خود را ارائه کرده است.
مراحل استدلال
برخلاف بیشتر مدلهای هوش مصنوعی، مدلهای استدلالی مانند o3 بهطور مؤثر خود را مورد بررسی قرار میدهند، که به آنها کمک میکند از برخی از دامهایی که معمولاً مدلها را به خطر میاندازند، اجتناب کنند.
این فرآیند بررسی واقعیت دارای تأخیر خاصی است. o3، مانند مدل قبلیاش o1، در مقایسه با یک مدل معمولی غیر استدلالی، کمی بیشتر – معمولاً چند ثانیه تا چند دقیقه – طول میکشد تا به راه حلها برسد. میزان این تاخیر زیاد است؟ در عوض، پاسخهای این مدل در حوزه هایی مانند فیزیک، علوم و ریاضیات قابل اعتمادتر است.
o3 قبل از پاسخ دادن از طریق آنچه OpenAI به عنوان یک “زنجیره خصوصی از افکار” توصیف میکند، از طریق یادگیری تقویتی آموزش دیده است. این مدل برای یافتن راهحل ها، از طریق یک وظیفه به استدلال میپردازد و برنامه ریزی میکند و یک سری اقدامات را در یک دوره طولانی انجام میدهد.
@OpenAI ما مدل o1 را فقط ۳ ماه پیش معرفی کردیم. امروز، o3 را معرفی کردیم. به دلایل مختلف ما باور داریم که این مسیر سریع، همچنان ادامه خواهد داشت.
— نوام براون (@polynoamial) ۲۰ دسامبر ۲۰۲۴
در عمل، با ارسال یک پرامپت، o3 قبل از پاسخ دادن مکث میکند، تعدادی از درخواستهای مرتبط را در نظر میگیرد و استدلال خود را در طول مسیر “توضیح میدهد”. پس از مدتی، مدل آنچه را که دقیقترین پاسخ میداند، به طور خلاصه ارایه میدهد.
o1 اولین مدل استدلالی بزرگ ما بود – همانطور که در وبلاگ اصلی “یادگیری نحوه پاسخگویی” توضیح دادیم o1 فقط یک مدل زبانی بزرگ است که با RL آموزش دیده است.
o3 با افزایش مقیاس RL فراتر از o1 نیرو می گیرد، و قدرت مدل حاصل از آن،بسیار بسیار چشمگیر است.(۲/n)
— Nat McAleese (@__nmca__) ۲۰ دسامبر ۲۰۲۴
تمایز مهم مدل جدید o3 در مقابل o1 توانایی “تنظیم” زمان استدلال است. مدل ها را میتوان روی محاسبه (یا زمان استدلال) کم، متوسط یا زیاد تنظیم کرد. هرچه میزان محاسبه بالاتر باشد، o3 در آن کار عملکرد بهتری خواهد داشت.
مدل های استدلالی مانند o3 فارغ از آن که چقدر امکانات محاسباتی در اختیار دارند، بی عیب و نقص نیستند. در حالی که استدلال می تواند توهمات و خطاها را کاهش دهد، آنها را از بین نمی برد.
نتایج بنچمارک ها و AGI
یک سوال بزرگ که امروز مطرح شد این بود که آیا OpenAI ممکن است ادعا کند که جدیدترین مدل های آن در حال نزدیک شدن به AGI هستند یا خیر.
AGI، مخفف “هوش عمومی مصنوعی” یا artificial general intelligence، به طور کلی به هوش مصنوعیای اشاره دارد که میتواند هر کاری را که یک انسان قادر به انجام آن است انجام دهد. OpenAI تعریف خاص خود را دارد: «سیستمهای بسیار خودمختار که از نظر اقتصادی از انسانها بهتر عمل میکنند».
دستیابی به AGI یک ادعای جسورانه خواهد بود. و البته پیامدهای اقتصادی برای OpenAI دارد. طبق شرایط قرارداد OpenAI با شریک نزدیک و سرمایهگذار بزرگش یعنی مایکروسافت، هنگامی که OpenAI به AGI رسید، دیگر موظف نیست به مایکروسافت دسترسی به پیشرفتهترین فناوریهای خود (آنهایی که با تعریف OpenAI از AGI مطابقت دارند) را بدهد.
با یک معیار، OpenAI به آرامی در حال نزدیک شدن به AGI است. در بنچمارک ARC-AGI، آزمایشی که برای ارزیابی اینکه آیا یک سیستم هوش مصنوعی میتواند به طور موثر مهارتهای جدیدی را خارج از دادههایی که روی آن آموزش دیده است، به دست آورد یا خیر، طراحی شده است، o3 به امتیاز ۸۷.۵ درصد در تنظیمات محاسباتی بالا دست یافت. در بدترین حالت (در تنظیمات محاسباتی کم)، این مدل عملکردی معادل سه برابر مدل o1 دارد.
طبق گفته فرانسوا شولت ، یکی از خالقان ARC-AGI، تنظیمات محاسباتی بالا بسیار گران بود – به ترتیب هزاران دلار در هر چالش .
امروز OpenAI o3، مدل استدلالی نسل بعدی خود را معرفی کرد. ما با OpenAI کار کردهایم تا آن را روی ARC-AGI آزمایش کنیم و معتقدیم که این نشاندهنده یک پیشرفت مهم در تطبیق هوش مصنوعی با وظایف جدید است.
امتیاز ۷۵.۷% در ارزیابی نیمه خصوصی در حالت محاسبات پایین (برای هر کار ۲۰ دلار…
— François Chollet (@fchollet) ۲۰ دسامبر ۲۰۲۴
Chollet همچنین خاطرنشان کرد که o3 در “وظایف بسیار آسان” در ARC-AGI شکست میخورد، که به نظر او نشان میدهد که این مدل “تفاوتهای اساسی” با هوش انسانی را نشان میدهد. او قبلاً به محدودیتهای ارزیابی اشاره کرده است و نسبت به استفاده از آن به عنوان معیاری برای سنجش هوش مصنوعی هشدار داده است.
دادههای اولیه نشان میدهد که [جانشین بنچمارک ARC-AGI] آتی همچنان چالش مهمی برای o3 ایجاد میکند و به طور بالقوه امتیاز آن را حتی در محاسبات بالا به کمتر از ۳۰ درصد کاهش میدهد (در حالی که یک انسان باهوش همچنان قادر خواهد بود بدون هیچ تمرینی امتیازی بالای ۹۵٪ کسب کند)” Chollet در بیانیه ای ادامه داد. زمانی مشخص میشود به AGI دست یافتهایم که انجام کارهایی که برای انسانهای معمولی آسان اما برای هوش مصنوعی سخت است، به سادگی غیرممکن شود.
اتفاقا، OpenAI میگوید که با بنیاد ARC-AGI همکاری خواهد کرد تا به آن کمک کند تا نسل بعدی بنچمارک هوش مصنوعی خود، ARC-AGI 2 را بسازد.
در بنچمارکهای دیگر، o3 به معنای واقعی کلمه میترکاند.
این مدل در بنچمارک SWE-Bench Verified، یک معیار متمرکز بر وظایف برنامه نویسی، ۲۲.۸ درصد بهتر از o1 است و به رتبه ۲۷۲۷ Codeforces – معیار دیگری از مهارت های کدنویسی – می رسد. (رتبه ۲۴۰۰ یک مهندس را در مقام ۹۹.۲ از صد قرار می دهد. ) o3 در آزمون American Invitational Mathematics Exam برای سال ۲۰۲۴ امتیاز ۹۶.۷٪ را کسب میکند. در این امتحان، تنها یک سؤال را از پاسخ نمیدهد. و در GPQA Diamond، مجموعه ای از سؤالات زیست شناسی، فیزیک و شیمی در سطح فارغ التحصیلی، به ۸۷.۷ درصد میرسد. در نهایت، o3 یک رکورد جدید در بنچمارک EpochAI’s Frontier Math ایجاد می کند و ۲۵.۲٪ از مسائل را حل می کند. هیچ مدل دیگری قادر به حل بیش از ۲٪ مسایل نیست.
ما o3-mini را آموزش دادیم: هر دو نسبت به o1-mini توانایی بیشتری دارند و در هنگام محاسبه توکن های استدلالی، تقریباً ۴ برابر سریعتر از انتها به انتها
با @ren_hongyu @shengjia_zhao و دیگران
— کوین لو (@_kevinlu) ۲۰ دسامبر ۲۰۲۴
البته این ادعاها را باید کمی شوخی در نظر گرفت. این افراد از ارزیابهای داخلی OpenAI هستند. باید منتظر بمانیم تا ببینیم این مدل در آینده چگونه از پس بنچمارکهای مشتریان و سازمانهای خارجی برخواهد آمد.
ادامه روند پیشرفت چگونه خواهد بود؟
پس از انتشار اولین سری از مدلهای استدلال OpenAI، مدلهای استدلالی از شرکتهای رقیب هوش مصنوعی – از جمله گوگل – بهوجود آمد. در اوایل نوامبر، DeepSeek، یک شرکت تحقیقاتی هوش مصنوعی که توسط معامله گران کوانت تامین می شود، پیش نمایشی از اولین مدل استدلال خود، DeepSeek-R1 را ارائه کرد . در همان ماه، تیم Qwen علیبابا از چیزی که ادعا میکرد اولین رقیب «باز» برای o1 است (به این معنا که میتوان آن را دانلود، تنظیم دقیق و به صورت محلی اجرا کرد) رونمایی کرد .
هنوز همه متقاعد نشدهاند که مدلهای استدلالی بهترین راه برای حرکت رو به جلو هستند. به دلیل قدرت محاسباتی زیادی که برای اجرای آنها لازم است، آنها معمولاً گران هستند. و در حالی که مدلهای استدلالی تاکنون در بنچمارک ها عملکرد خوبی داشته اند، مشخص نیست که آیا میتوانند این میزان از پیشرفت را حفظ کنند یا خیر.
جالب اینجاست که انتشار o3 همزمان با خروج یکی از موفقترین دانشمندان OpenAI صورت میگیرد. الک رادفورد، نویسنده اصلی مقاله آکادمیک که “سری GPT” از مدلهای هوش مصنوعی مولد OpenAI (یعنی GPT-3، GPT-4 و غیره) را آغاز کرد، این هفته اعلام کرد که برای پیگیری تحقیقات مستقل این شرکت را ترک میکند.
خلاصه این مقاله:
- معرفی o3 و o3-mini: مدل o3 در کارهای پیچیده مانند ریاضی، کدنویسی و استدلال علمی برتری دارد، در حالی که o3-mini یک نسخه سریعتر و کوچکتر است که برای کارهای کدنویسی مناسب است.
- عملکرد چشمگیر: o3 در حال نشان دادن مهارت های خود با امتیازات قابل توجه در بنچمارکهای مختلف است، از جمله ۷۱.۷% در SWE-bench و صدک خیره کننده ۹۹.95th در Codeforces.
- دسترسی پیشنمایش: اگرچه این مدلها هنوز در دسترس عموم قرار نگرفتهاند، اما محققان ایمنی میتوانند برای یک آزمایش کوتاه ثبتنام کنند و انتظار میرود o3-mini در اوایل سال ۲۰۲۵ معرفی شود.
- اهمیت ایمنی: OpenAI بر تضمین ایمنی متمرکز است، زیرا o3 هنوز در حال آزمایش کامل قبل از آماده شدن برای دسترسی گستردهتر است.