Claude Sonnet 5 به گونهای ساخته شده است که عاملیتمحورترین مدل Sonnet تا به امروز باشد. این مدل میتواند برنامهریزی کند، از ابزارهایی مانند مرورگرها و ترمینالها استفاده نماید و به طور خودکار در سطحی کار کند که تنها چند ماه پیش، نیازمند مدلهای بزرگتر و گرانقیمتتر بود.
برای بسیاری از توسعهدهندگان، عصر هوش مصنوعی عاملیتمحور با مدلهای کلاس Sonnet آغاز شد: Claude Sonnet 3.5، 3.6 و 3.7 اولین مدلهایی بودند که مهارتهای چشمگیری در کدنویسی و استفاده از ابزار از خود نشان دادند. با این حال، اخیراً، واضحترین پیشرفتها در قابلیتهای عاملیتمحور در مدلهای کلاس Opus ما مشاهده شده است.
Sonnet 5 این شکاف را کم میکند: عملکرد آن نزدیک به Opus 4.8 است، اما با قیمتی کمتر. این یک پیشرفت قابل توجه نسبت به مدل قبلی خود، Sonnet 4.6، در جنبههای مهم عملکرد عاملیتمحور مانند استدلال، استفاده از ابزار، کدنویسی و کارهای دانشی محسوب میشود:
ارزیابیهای ایمنی ما نشان داد که Sonnet 5 نرخ کلی پایینتری از رفتارهای نامطلوب نسبت به Sonnet 4.6 از خود نشان میدهد و عموماً در زمینههای عاملیتمحور ایمنتر است. ارزیابیها همچنین نشان میدهند که توانایی آن برای انجام وظایف امنیت سایبری بسیار کمتر از مدلهای Opus فعلی ما است.
از امروز، Claude Sonnet 5 در تمام طرحها در دسترس است: این مدل پیشفرض برای طرحهای رایگان و حرفهای است و برای کاربران Max، Team و Enterprise نیز قابل دسترسی است. همچنین در Claude Code و در پلتفرم Claude در دسترس است، جایی که با قیمت اولیه 2 دلار به ازای هر میلیون توکن ورودی و 10 دلار به ازای هر میلیون توکن خروجی تا تاریخ 31 آگوست 2026 عرضه میشود، پس از آن قیمت آن به 3 دلار به ازای هر میلیون توکن ورودی و 15 دلار به ازای هر میلیون توکن خروجی خواهد رسید. توسعهدهندگان میتوانند از claude-sonnet-5 از طریق API Claude استفاده کنند.
کار با Claude Sonnet 5
نمودارهای زیر عملکرد Sonnet 5 را با Sonnet 4.6 و Opus 4.8 در سطوح مختلف تلاش در ارزیابی جستجوی عاملیتمحور BrowseComp و ارزیابی استفاده از رایانه OSWorld-Verified مقایسه میکنند. Sonnet 5 (خط نارنجی) یک پیشرفت قطعی نسبت به Sonnet 4.6 (خط خاکستری) است. Opus 4.8 (خط زرد) همچنان مدل انتخابی برای دقت بالاتر در این وظایف است، اما Sonnet 5 گزینههای ارزانتری را در اختیار توسعهدهندگان قرار میدهد که کیفیت بسیار بالاتری نسبت به آنچه قبلاً در دسترس بود، دارند. بین Sonnet 5 و Opus 4.8، کاربران میتوانند سطح تلاش را برای یافتن تعادل مناسب بین هزینه و عملکرد تنظیم کنند.
بازخورد شرکای دسترسی اولیه ما ثابت بوده است: Sonnet 5 بسیار عاملیتمحورتر از مدلهای قبلی خود است. آزمایشکنندگان توضیح دادند که چگونه این مدل وظایف پیچیده را به اتمام میرساند در حالی که مدلهای Sonnet قبلی متوقف میشدند، چگونه خروجی خود را بدون درخواست صریح بررسی میکند و چگونه تمام این کارهای عاملیتمحور را با قیمتی جذاب انجام میدهد:
ارزیابیهای ایمنی
ارزیابیهای ایمنی قبل از استقرار ما نشان داد که Sonnet 5 در مجموع یک پیشرفت نسبت به Sonnet 4.6 بوده است. در زمینه ایمنی عاملیتمحور، این مدل در رد درخواستهای مخرب و مقاومت در برابر تلاشهای ربایش در حملات تزریق پرامپت (prompt injection) بهتر عمل میکند. این مدل نرخ پایینتری از توهمزایی (hallucination) و چاپلوسی (sycophancy) نسبت به Sonnet 4.6 نشان میدهد. در ممیزی رفتار خودکار ما، که طیف گستردهای از رفتارهای ناهماهنگ مانند همکاری با سوءاستفاده و فریب را آزمایش میکند، Sonnet 5 در مجموع امتیاز پایینتری (یعنی ایمنتر) کسب کرد. با این حال، در این ارزیابی نسبت به Opus 4.8 و Claude Mythos Preview با قابلیتهای بیشتر، نرخ کمی بالاتر از رفتار ناهماهنگ را نشان داد.
ما Sonnet 5 را عمداً برای وظایف امنیت سایبری آموزش ندادیم. این مدل میتواند برخی از وظایف سایبری معمول و غیرمضر را انجام دهد، اما در ارزیابیهایی که مهارتهای سایبری بالقوه خطرناک، مانند توسعه اکسپلویتهای نرمافزاری را آزمایش میکنند، عملکرد بسیار ضعیفتری نسبت به مدلهایی مانند Opus 4.8 و Mythos 5 نشان میدهد. امتیازات حاصل از یک ارزیابی، که توانایی مدلها را در توسعه اکسپلویت برای آسیبپذیریهای مرورگر فایرفاکس آزمایش میکرد، در نمودار زیر نشان داده شده است. Sonnet 5 هرگز نتوانست یک اکسپلویت کامل و کارآمد توسعه دهد، اما نرخ موفقیت جزئی کمی بالاتر از Sonnet 4.6 را نشان میدهد. این تغییر اخیر احتمالاً به دلیل بهبود در هوش عمومی است تا آموزش خاص.
از آنجایی که Sonnet 5 در این وظایف تا حدی قویتر از مدل قبلی خود است، آن را با محافظتهای سایبری فعال شده به صورت پیشفرض عرضه کردهایم. این محافظتها – که استفاده خطرناک سایبری را در زمان واقعی شناسایی و مسدود میکنند – همان مواردی هستند که در Claude Opus 4.7 و 4.8 وجود دارند (زیرا ما قضاوت کردیم که سطح کلی خطر امنیت سایبری از Sonnet 5 پایین است، بنابراین محافظتها کمتر سختگیرانه از مواردی هستند که با Fable 5 عرضه شدند، که طیف بسیار گستردهتری از وظایف امنیت سایبری را مسدود میکنند).
ارزیابی کامل ما از Sonnet 5 در بسیاری از ارزیابیهای ایمنی و قابلیت در کارت سیستمی Claude Sonnet 5 گزارش شده است.
دسترسی و قیمتگذاری
Claude Sonnet 5 از امروز در همه جا با قیمت اولیه 2 دلار به ازای هر میلیون توکن ورودی و 10 دلار به ازای هر میلیون توکن خروجی تا تاریخ 31 آگوست 2026 در دسترس است. سپس به قیمت استاندارد 3 دلار به ازای هر میلیون توکن ورودی و 15 دلار به ازای هر میلیون توکن خروجی منتقل میشود. ما محدودیتهای نرخ را در Chat، Cowork، Claude Code و پلتفرم Claude افزایش دادهایم تا میزان مصرف توکن بالاتر در سطوح تلاش بیشتر را پوشش دهد؛ کاربران میتوانند هر سطحی را که برای پروژه خاص خود مناسب است، انتخاب کنند.