دسترسی به o3 و o4-mini از امروز برای کاربران ChatGPT Plus، Pro و Team آغاز می‌شود.
دسترسی به o3 و o4-mini از امروز برای کاربران ChatGPT Plus، Pro و Team آغاز می‌شود.

o3 و o4-mini در مسیریابی پایگاه‌های کد OpenAI بهتر از گرگ براکمن هستند

OpenAI دو مدل جدید o3 و o4-mini را به همراه ابزار تولید کد جدیدی به نام Codex CLI منتشر کرده است که آخرین پیشرفت در سری o آن محسوب می‌شود. این مدل‌ها با ترکیب استدلال عمیق‌تر با دسترسی کامل به ابزارها، نشان‌دهنده تغییری در قابلیت‌های ChatGPT هستند.

این شرکت آن‌ها را "هوشمندترین مدل‌هایی" می‌نامد که تا به امروز منتشر کرده است، که قادر به استفاده از تمام ابزارها در ChatGPT - از جمله مرورگر وب، پایتون، تجزیه و تحلیل فایل و تولید تصویر - در یک گردش کار واحد هستند.

گرگ براکمن، رئیس OpenAI، در پخش زنده گفت: "این اولین مدل‌هایی هستند که دانشمندان برتر به ما می‌گویند ایده‌های جدید و مفید واقعاً خوب تولید می‌کنند." این مدل‌ها "نتایج عالی در قانون" و توانایی تولید ایده‌های نوآورانه معماری سیستم را نشان داده‌اند.

براکمن با بیان اینکه در یک مورد، o3 از 600 فراخوانی ابزار پشت سر هم برای حل یک کار واقعاً سخت استفاده کرد، افزود: "ما آنها را آموزش داده‌ایم تا از ابزارها استفاده کنند، که کاری نبود که با مدل‌های استدلال قبلی خود انجام داده بودیم. آن‌ها در واقع از این ابزارها در زنجیره فکری خود در هنگام تلاش برای حل یک مشکل سخت استفاده می‌کنند."

وی افزود: "من متوجه شدم که این مدل‌ها در واقع از من در مسیریابی پایگاه کد OpenAI ما بهتر هستند، که واقعاً مفید است."

o3 به عنوان قدرتمندترین مدل استدلال OpenAI تا کنون توصیف شده است که عملکرد را در زمینه‌های کدنویسی، ریاضیات، علوم و ادراک بصری بهبود می‌بخشد. این مدل بدون تکیه بر داربست‌های خاص مدل، معیارهای جدیدی را در Codeforces، SWE-bench و MMMU تعیین می‌کند.

OpenAI اعلام کرد که "o3، 20 درصد خطاهای اساسی کمتری نسبت به OpenAI o1 در کارهای دشوار و واقعی مرتکب می‌شود" و عملکرد بهبود یافته‌ای در زمینه‌هایی مانند برنامه‌نویسی و ایده‌پردازی خلاقانه مشاهده شده است.

o4-mini یک مدل کوچکتر و مقرون به صرفه است که برای استفاده با توان عملیاتی بالا طراحی شده است. این مدل نتایج قوی در کارهایی که نیاز به ریاضیات، کدنویسی و درک بصری دارند، ارائه می‌دهد. این مدل در مسابقات AIME 2024 و 2025 و در زمینه‌های غیر STEM مانند علم داده، از مدل قبلی خود بهتر عمل می‌کند. OpenAI گفت: "به لطف کارایی آن، o4-mini از محدودیت‌های استفاده بسیار بالاتری نسبت به o3 پشتیبانی می‌کند."

هر دو مدل از دستورالعمل‌های بهبود یافته پیروی می‌کنند و پاسخ‌های قابل تأییدتری تولید می‌کنند که با دسترسی به منابع وب به روز تسهیل می‌شود. این مدل‌ها همچنین تعاملات طبیعی‌تر و مکالمه‌ای‌تری از خود نشان می‌دهند و از تبادلات گذشته برای شخصی‌سازی پاسخ‌ها استفاده می‌کنند.

دسترسی به o3 و o4-mini از روز پنجشنبه برای کاربران ChatGPT Plus، Pro و Team آغاز می‌شود. برنامه‌های Enterprise و آموزش و پرورش در یک هفته بعد دنبال خواهند شد. توسعه‌دهندگان می‌توانند از هر دو مدل از طریق Chat Completions و Responses APIs استفاده کنند. انتظار می‌رود نسخه o3-pro به زودی عرضه شود.

انتشار جدید بخشی از استراتژی گسترده‌تر OpenAI برای توسعه سیستم‌های هوش مصنوعی عامل است. این شرکت توضیح داد: "این مدل‌ها آموزش داده شده‌اند تا در مورد زمان و نحوه استفاده از ابزارها برای تولید پاسخ‌های دقیق و متفکرانه در قالب‌های خروجی مناسب، معمولاً در کمتر از یک دقیقه، استدلال کنند."

این امر اجرای چند مرحله‌ای کارها را امکان‌پذیر می‌کند، مانند تولید پیش‌بینی‌ها بر اساس داده‌های زنده، ایجاد توضیحات بصری یا تفسیر تصاویر و نمودارهای پیچیده.

ابزار تولید کد OpenAI

Codex CLI یک عامل کدنویسی سبک وزن است که استدلال چندوجهی را به خط فرمان می‌آورد. کاربران می‌توانند اسکرین شات‌ها یا طرح‌ها را با زمینه کد محلی ترکیب کنند و این ابزار اکنون منبع باز است.

پژوهشگران OpenAI، فواد متین و مایکل بولین، Codex CLI را معرفی کردند و آن را "رابط سبک وزن برای اتصال مدل‌های ما به کاربران و رایانه‌های آنها" توصیف کردند. این ابزار به کاربران اجازه می‌دهد تا مستقیماً بر روی ماشین‌های محلی خود با مدل‌ها تعامل داشته باشند و از ویژگی‌هایی مانند استدلال چندوجهی استفاده کنند. یک نمایش زنده نشان داد که Codex CLI یک ژنراتور هنری تصویر به ASCII را از یک اسکرین شات دوباره پیاده‌سازی می‌کند، حتی یک فید وب‌کم را نیز در خود جای می‌دهد.

یک برنامه کمک مالی 1 میلیون دلاری برای حمایت از پروژه‌هایی که از Codex CLI و مدل‌های OpenAI استفاده می‌کنند، راه‌اندازی شده است و پیشنهادات در افزایش 25000 دلاری پذیرفته می‌شوند.

مدل‌های جدید همچنین منعکس کننده بهبودهای ایمنی هستند. OpenAI خاطرنشان کرد که داده‌های آموزشی ایمنی خود را به طور کامل بازسازی کرده است، به ویژه برای زمینه‌هایی مانند تهدیدات بیولوژیکی و فرارهای زندان. یک مانیتور LLM استدلال جدید، 99٪ از مکالمات پرخطر را در آزمایش‌های تیم قرمز داخلی پرچم‌گذاری کرد.