OpenAI روز دوشنبه خانواده جدیدی از مدلها را با نام GPT-4.1 راهاندازی کرد. بله، "4.1" - انگار نامگذاری این شرکت به اندازه کافی گیج کننده نبود.
GPT-4.1، GPT-4.1 mini و GPT-4.1 nano وجود دارند که به گفته OpenAI همگی در کدنویسی و پیروی از دستورالعملها "برتری" دارند. مدلهای چندوجهی که از طریق API OpenAI در دسترس هستند اما در ChatGPT نیستند، دارای یک پنجره متنی 1 میلیون توکنی هستند، به این معنی که میتوانند تقریباً 750000 کلمه را به یکباره دریافت کنند (طولانیتر از "جنگ و صلح").
GPT-4.1 در حالی از راه میرسد که رقبای OpenAI مانند گوگل و آنتروپیک تلاشها برای ساخت مدلهای برنامه نویسی پیشرفته را افزایش میدهند. Gemini 2.5 Pro گوگل که اخیراً منتشر شده است و دارای یک پنجره متنی 1 میلیون توکنی است، در بنچمارکهای محبوب کدنویسی رتبه بالایی دارد. Claude 3.7 Sonnet آنتروپیک و استارتآپ هوش مصنوعی چینی DeepSeek's upgraded V3 نیز همینطور هستند.
هدف بسیاری از غولهای فناوری، از جمله OpenAI، آموزش مدلهای کدنویسی هوش مصنوعی است که قادر به انجام وظایف پیچیده مهندسی نرمافزار هستند. آرزوی بزرگ OpenAI ایجاد یک "مهندس نرمافزار عامل" است، همانطور که سارا فرایر، مدیر ارشد مالی، در اجلاس فناوری در لندن در ماه گذشته بیان کرد. این شرکت ادعا میکند که مدلهای آینده آن قادر خواهند بود کل برنامهها را به صورت end-to-end برنامهریزی کنند و جنبههایی مانند تضمین کیفیت، آزمایش اشکالات و نوشتن مستندات را مدیریت کنند.
GPT-4.1 گامی در این راستا است.
سخنگوی OpenAI از طریق ایمیل به TechCrunch گفت: «ما GPT-4.1 را برای استفاده در دنیای واقعی بر اساس بازخورد مستقیم بهینه کردهایم تا در زمینههایی که توسعهدهندگان بیشترین اهمیت را میدهند بهبود یابد: کدنویسی فرانتاند، ایجاد ویرایشهای اضافی کمتر، پیروی از قالبها به طور قابل اعتماد، رعایت ساختار و ترتیب پاسخ، استفاده مداوم از ابزار و موارد دیگر.» «این پیشرفتها توسعهدهندگان را قادر میسازد تا عوامل بهتری در انجام وظایف مهندسی نرمافزار در دنیای واقعی ایجاد کنند.»
OpenAI ادعا میکند که مدل کامل GPT-4.1 در بنچمارکهای کدنویسی از جمله SWE-bench از مدلهای GPT-4o و GPT-4o mini خود بهتر عمل میکند. گفته میشود GPT-4.1 mini و nano با هزینه کمی دقت، کارآمدتر و سریعتر هستند، و OpenAI میگوید GPT-4.1 nano سریعترین - و ارزانترین - مدل آن تا کنون است.
هزینه GPT-4.1 به ازای هر میلیون توکن ورودی 2 دلار و به ازای هر میلیون توکن خروجی 8 دلار است. GPT-4.1 mini به ازای هر میلیون توکن ورودی 0.40 دلار و به ازای هر میلیون توکن خروجی 1.60 دلار و GPT-4.1 nano به ازای هر میلیون توکن ورودی 0.10 دلار و به ازای هر میلیون توکن خروجی 0.40 دلار است.
بر اساس آزمایشهای داخلی OpenAI، GPT-4.1، که میتواند توکنهای بیشتری را به طور همزمان نسبت به GPT-4o تولید کند (32768 در مقابل 16384)، بین 52٪ و 54.6٪ در SWE-bench Verified، یک زیرمجموعه انسانی تأیید شده از SWE-bench، امتیاز کسب کرد. (OpenAI در یک پست وبلاگی اشاره کرد که برخی از راهحلهای مشکلات SWE-bench Verified نتوانستند روی زیرساخت آن اجرا شوند، از این رو دامنه امتیازات وجود دارد.) این ارقام کمی کمتر از امتیازات گزارش شده توسط گوگل و آنتروپیک برای Gemini 2.5 Pro (63.8٪) و Claude 3.7 Sonnet (62.3٪) در همان بنچمارک است.
در یک ارزیابی جداگانه، OpenAI GPT-4.1 را با استفاده از Video-MME بررسی کرد، که برای اندازهگیری توانایی یک مدل در "درک" محتوای ویدیوها طراحی شده است. OpenAI ادعا میکند GPT-4.1 به دقت 72 درصدی در رده ویدیویی "طولانی، بدون زیرنویس" دست یافته است که رتبه بالایی را در نمودار به خود اختصاص داده است.
در حالی که GPT-4.1 در بنچمارکها به طور معقولی خوب عمل میکند و دارای "قطع دانش" جدیدتری است که به آن چارچوب مرجع بهتری برای رویدادهای جاری (تا ژوئن 2024) میدهد، مهم است که به خاطر داشته باشیم که حتی برخی از بهترین مدلهای امروزی نیز با وظایفی که متخصصان را به زحمت نمیاندازند، دست و پنجه نرم میکنند. برای مثال، بسیاری از مطالعات نشان دادهاند که مدلهای تولید کد اغلب نمیتوانند آسیبپذیریها و اشکالات امنیتی را برطرف کنند و حتی آنها را وارد میکنند.
OpenAI همچنین اذعان میکند که GPT-4.1 هر چه توکنهای ورودی بیشتری داشته باشد، کمتر قابل اعتماد میشود (یعنی احتمال اشتباه کردن آن بیشتر میشود). در یکی از آزمایشهای خود شرکت، OpenAI-MRCR، دقت مدل از حدود 84٪ با 8000 توکن به 50٪ با 1 میلیون توکن کاهش یافت. این شرکت میگوید GPT-4.1 همچنین نسبت به GPT-4o "تحتاللفظی"تر است و گاهی اوقات نیاز به درخواستهای خاصتر و صریحتری دارد.