اعتبار تصویر: برایس دوربین / TechCrunch
اعتبار تصویر: برایس دوربین / TechCrunch

مدل‌های جدید هوش مصنوعی GPT-4.1 OpenAI بر کدنویسی تمرکز دارند

OpenAI روز دوشنبه خانواده جدیدی از مدل‌ها را با نام GPT-4.1 راه‌اندازی کرد. بله، "4.1" - انگار نامگذاری این شرکت به اندازه کافی گیج کننده نبود.

GPT-4.1، GPT-4.1 mini و GPT-4.1 nano وجود دارند که به گفته OpenAI همگی در کدنویسی و پیروی از دستورالعمل‌ها "برتری" دارند. مدل‌های چندوجهی که از طریق API OpenAI در دسترس هستند اما در ChatGPT نیستند، دارای یک پنجره متنی 1 میلیون توکنی هستند، به این معنی که می‌توانند تقریباً 750000 کلمه را به یکباره دریافت کنند (طولانی‌تر از "جنگ و صلح").

GPT-4.1 در حالی از راه می‌رسد که رقبای OpenAI مانند گوگل و آنتروپیک تلاش‌ها برای ساخت مدل‌های برنامه نویسی پیشرفته را افزایش می‌دهند. Gemini 2.5 Pro گوگل که اخیراً منتشر شده است و دارای یک پنجره متنی 1 میلیون توکنی است، در بنچمارک‌های محبوب کدنویسی رتبه بالایی دارد. Claude 3.7 Sonnet آنتروپیک و استارت‌آپ هوش مصنوعی چینی DeepSeek's upgraded V3 نیز همین‌طور هستند.

هدف بسیاری از غول‌های فناوری، از جمله OpenAI، آموزش مدل‌های کدنویسی هوش مصنوعی است که قادر به انجام وظایف پیچیده مهندسی نرم‌افزار هستند. آرزوی بزرگ OpenAI ایجاد یک "مهندس نرم‌افزار عامل" است، همانطور که سارا فرایر، مدیر ارشد مالی، در اجلاس فناوری در لندن در ماه گذشته بیان کرد. این شرکت ادعا می‌کند که مدل‌های آینده آن قادر خواهند بود کل برنامه‌ها را به صورت end-to-end برنامه‌ریزی کنند و جنبه‌هایی مانند تضمین کیفیت، آزمایش اشکالات و نوشتن مستندات را مدیریت کنند.

GPT-4.1 گامی در این راستا است.

سخنگوی OpenAI از طریق ایمیل به TechCrunch گفت: «ما GPT-4.1 را برای استفاده در دنیای واقعی بر اساس بازخورد مستقیم بهینه کرده‌ایم تا در زمینه‌هایی که توسعه‌دهندگان بیشترین اهمیت را می‌دهند بهبود یابد: کدنویسی فرانت‌اند، ایجاد ویرایش‌های اضافی کمتر، پیروی از قالب‌ها به طور قابل اعتماد، رعایت ساختار و ترتیب پاسخ، استفاده مداوم از ابزار و موارد دیگر.» «این پیشرفت‌ها توسعه‌دهندگان را قادر می‌سازد تا عوامل بهتری در انجام وظایف مهندسی نرم‌افزار در دنیای واقعی ایجاد کنند.»

OpenAI ادعا می‌کند که مدل کامل GPT-4.1 در بنچمارک‌های کدنویسی از جمله SWE-bench از مدل‌های GPT-4o و GPT-4o mini خود بهتر عمل می‌کند. گفته می‌شود GPT-4.1 mini و nano با هزینه کمی دقت، کارآمدتر و سریع‌تر هستند، و OpenAI می‌گوید GPT-4.1 nano سریع‌ترین - و ارزان‌ترین - مدل آن تا کنون است.

هزینه GPT-4.1 به ازای هر میلیون توکن ورودی 2 دلار و به ازای هر میلیون توکن خروجی 8 دلار است. GPT-4.1 mini به ازای هر میلیون توکن ورودی 0.40 دلار و به ازای هر میلیون توکن خروجی 1.60 دلار و GPT-4.1 nano به ازای هر میلیون توکن ورودی 0.10 دلار و به ازای هر میلیون توکن خروجی 0.40 دلار است.

بر اساس آزمایش‌های داخلی OpenAI، GPT-4.1، که می‌تواند توکن‌های بیشتری را به طور همزمان نسبت به GPT-4o تولید کند (32768 در مقابل 16384)، بین 52٪ و 54.6٪ در SWE-bench Verified، یک زیرمجموعه انسانی تأیید شده از SWE-bench، امتیاز کسب کرد. (OpenAI در یک پست وبلاگی اشاره کرد که برخی از راه‌حل‌های مشکلات SWE-bench Verified نتوانستند روی زیرساخت آن اجرا شوند، از این رو دامنه امتیازات وجود دارد.) این ارقام کمی کمتر از امتیازات گزارش شده توسط گوگل و آنتروپیک برای Gemini 2.5 Pro (63.8٪) و Claude 3.7 Sonnet (62.3٪) در همان بنچمارک است.

در یک ارزیابی جداگانه، OpenAI GPT-4.1 را با استفاده از Video-MME بررسی کرد، که برای اندازه‌گیری توانایی یک مدل در "درک" محتوای ویدیوها طراحی شده است. OpenAI ادعا می‌کند GPT-4.1 به دقت 72 درصدی در رده ویدیویی "طولانی، بدون زیرنویس" دست یافته است که رتبه بالایی را در نمودار به خود اختصاص داده است.

در حالی که GPT-4.1 در بنچمارک‌ها به طور معقولی خوب عمل می‌کند و دارای "قطع دانش" جدیدتری است که به آن چارچوب مرجع بهتری برای رویدادهای جاری (تا ژوئن 2024) می‌دهد، مهم است که به خاطر داشته باشیم که حتی برخی از بهترین مدل‌های امروزی نیز با وظایفی که متخصصان را به زحمت نمی‌اندازند، دست و پنجه نرم می‌کنند. برای مثال، بسیاری از مطالعات نشان داده‌اند که مدل‌های تولید کد اغلب نمی‌توانند آسیب‌پذیری‌ها و اشکالات امنیتی را برطرف کنند و حتی آنها را وارد می‌کنند.

OpenAI همچنین اذعان می‌کند که GPT-4.1 هر چه توکن‌های ورودی بیشتری داشته باشد، کمتر قابل اعتماد می‌شود (یعنی احتمال اشتباه کردن آن بیشتر می‌شود). در یکی از آزمایش‌های خود شرکت، OpenAI-MRCR، دقت مدل از حدود 84٪ با 8000 توکن به 50٪ با 1 میلیون توکن کاهش یافت. این شرکت می‌گوید GPT-4.1 همچنین نسبت به GPT-4o "تحت‌اللفظی"تر است و گاهی اوقات نیاز به درخواست‌های خاص‌تر و صریح‌تری دارد.