معرفی Claude Sonnet 5

جدول بنچمارک Claude Sonnet 5 — امتیازات Sonnet 5 در ارزیابی‌های مختلف در مقایسه با Sonnet 4.6 و Opus 4.8 (یک مدل با قابلیت‌های عمومی‌تر، برای مرجع). کارت سیستمی Claude Sonnet 5 مجموعه گسترده‌تری از ارزیابی‌ها را به تفصیل گزارش می‌دهد.

Claude Sonnet 5 به گونه‌ای ساخته شده است که عاملیت‌محورترین مدل Sonnet تا به امروز باشد. این مدل می‌تواند برنامه‌ریزی کند، از ابزارهایی مانند مرورگرها و ترمینال‌ها استفاده نماید و به طور خودکار در سطحی کار کند که تنها چند ماه پیش، نیازمند مدل‌های بزرگتر و گران‌قیمت‌تر بود.

برای بسیاری از توسعه‌دهندگان، عصر هوش مصنوعی عاملیت‌محور با مدل‌های کلاس Sonnet آغاز شد: Claude Sonnet 3.5، 3.6 و 3.7 اولین مدل‌هایی بودند که مهارت‌های چشمگیری در کدنویسی و استفاده از ابزار از خود نشان دادند. با این حال، اخیراً، واضح‌ترین پیشرفت‌ها در قابلیت‌های عاملیت‌محور در مدل‌های کلاس Opus ما مشاهده شده است.

Sonnet 5 این شکاف را کم می‌کند: عملکرد آن نزدیک به Opus 4.8 است، اما با قیمتی کمتر. این یک پیشرفت قابل توجه نسبت به مدل قبلی خود، Sonnet 4.6، در جنبه‌های مهم عملکرد عاملیت‌محور مانند استدلال، استفاده از ابزار، کدنویسی و کارهای دانشی محسوب می‌شود:

ارزیابی‌های ایمنی ما نشان داد که Sonnet 5 نرخ کلی پایین‌تری از رفتارهای نامطلوب نسبت به Sonnet 4.6 از خود نشان می‌دهد و عموماً در زمینه‌های عاملیت‌محور ایمن‌تر است. ارزیابی‌ها همچنین نشان می‌دهند که توانایی آن برای انجام وظایف امنیت سایبری بسیار کمتر از مدل‌های Opus فعلی ما است.

از امروز، Claude Sonnet 5 در تمام طرح‌ها در دسترس است: این مدل پیش‌فرض برای طرح‌های رایگان و حرفه‌ای است و برای کاربران Max، Team و Enterprise نیز قابل دسترسی است. همچنین در Claude Code و در پلتفرم Claude در دسترس است، جایی که با قیمت اولیه 2 دلار به ازای هر میلیون توکن ورودی و 10 دلار به ازای هر میلیون توکن خروجی تا تاریخ 31 آگوست 2026 عرضه می‌شود، پس از آن قیمت آن به 3 دلار به ازای هر میلیون توکن ورودی و 15 دلار به ازای هر میلیون توکن خروجی خواهد رسید. توسعه‌دهندگان می‌توانند از claude-sonnet-5 از طریق API Claude استفاده کنند.

کار با Claude Sonnet 5

نمودارهای زیر عملکرد Sonnet 5 را با Sonnet 4.6 و Opus 4.8 در سطوح مختلف تلاش در ارزیابی جستجوی عاملیت‌محور BrowseComp و ارزیابی استفاده از رایانه OSWorld-Verified مقایسه می‌کنند. Sonnet 5 (خط نارنجی) یک پیشرفت قطعی نسبت به Sonnet 4.6 (خط خاکستری) است. Opus 4.8 (خط زرد) همچنان مدل انتخابی برای دقت بالاتر در این وظایف است، اما Sonnet 5 گزینه‌های ارزان‌تری را در اختیار توسعه‌دهندگان قرار می‌دهد که کیفیت بسیار بالاتری نسبت به آنچه قبلاً در دسترس بود، دارند. بین Sonnet 5 و Opus 4.8، کاربران می‌توانند سطح تلاش را برای یافتن تعادل مناسب بین هزینه و عملکرد تنظیم کنند.

بازخورد شرکای دسترسی اولیه ما ثابت بوده است: Sonnet 5 بسیار عاملیت‌محورتر از مدل‌های قبلی خود است. آزمایش‌کنندگان توضیح دادند که چگونه این مدل وظایف پیچیده را به اتمام می‌رساند در حالی که مدل‌های Sonnet قبلی متوقف می‌شدند، چگونه خروجی خود را بدون درخواست صریح بررسی می‌کند و چگونه تمام این کارهای عاملیت‌محور را با قیمتی جذاب انجام می‌دهد:

میزان رفتارهای ناهماهنگ در مدل‌های Claude — میزان رفتارهای ناهماهنگ در ممیزی رفتار خودکار ما، که طیف بسیار وسیعی از رفتارهای نامطلوب را در بسیاری از موقعیت‌ها و زمینه‌ها آزمایش می‌کند (برای لیست کامل و نتایج هر رفتار خاص، به بخش 6.4 <a href="https://www.anthropic.com/claude-sonnet-5-system-card">کارت سیستمی Sonnet 5</a> مراجعه کنید). Sonnet 5 نرخ کلی پایین‌تری از رفتار ناهماهنگ نسبت به Sonnet 4.6 نشان می‌دهد، اگرچه نرخ آن نسبت به Mythos Preview و Opus 4.8 بالاتر است.

امتیازاتی که موفقیت مدل‌های Claude را در توسعه اکسپلویت برای آسیب‌پذیری‌های نرم‌افزاری در فایرفاکس 147 اندازه‌گیری می‌کند. — امتیازاتی که موفقیت مدل‌ها را در توسعه اکسپلویت برای آسیب‌پذیری‌های نرم‌افزاری در فایرفاکس 147 اندازه‌گیری می‌کند (این ارزیابی <a href="https://www.anthropic.com/news/mozilla-firefox-security">با همکاری موزیلا</a> توسعه یافته است؛ تمام آسیب‌پذیری‌ها در فایرفاکس 148 پچ شده‌اند). برای هر مدل، نوار سمت چپ نشان می‌دهد که مدل (بدون محافظت) چند بار یک اکسپلویت کارآمد توسعه داده است؛ نوار سمت راست نشان می‌دهد که مدل چند بار موفقیت جزئی داشته است. هیچ یک از مدل‌های Sonnet نتوانستند یک اکسپلویت کارآمد توسعه دهند (هر دو 0.0% امتیاز کسب کردند)؛ Sonnet 5 نرخ موفقیت جزئی کمی بالاتر از Sonnet 4.6 را نشان داد. هر دو مدل Sonnet قابلیت‌های سایبری بسیار ضعیف‌تری نسبت به Opus 4.8 و Mythos 5 دارند. برای جزئیات کامل، به بخش 3.2.4 <a href="https://www.anthropic.com/claude-sonnet-5-system-card">کارت سیستمی Sonnet 5</a> مراجعه کنید.

ارزیابی‌های ایمنی

ارزیابی‌های ایمنی قبل از استقرار ما نشان داد که Sonnet 5 در مجموع یک پیشرفت نسبت به Sonnet 4.6 بوده است. در زمینه ایمنی عاملیت‌محور، این مدل در رد درخواست‌های مخرب و مقاومت در برابر تلاش‌های ربایش در حملات تزریق پرامپت (prompt injection) بهتر عمل می‌کند. این مدل نرخ پایین‌تری از توهم‌زایی (hallucination) و چاپلوسی (sycophancy) نسبت به Sonnet 4.6 نشان می‌دهد. در ممیزی رفتار خودکار ما، که طیف گسترده‌ای از رفتارهای ناهماهنگ مانند همکاری با سوءاستفاده و فریب را آزمایش می‌کند، Sonnet 5 در مجموع امتیاز پایین‌تری (یعنی ایمن‌تر) کسب کرد. با این حال، در این ارزیابی نسبت به Opus 4.8 و Claude Mythos Preview با قابلیت‌های بیشتر، نرخ کمی بالاتر از رفتار ناهماهنگ را نشان داد.

ما Sonnet 5 را عمداً برای وظایف امنیت سایبری آموزش ندادیم. این مدل می‌تواند برخی از وظایف سایبری معمول و غیرمضر را انجام دهد، اما در ارزیابی‌هایی که مهارت‌های سایبری بالقوه خطرناک، مانند توسعه اکسپلویت‌های نرم‌افزاری را آزمایش می‌کنند، عملکرد بسیار ضعیف‌تری نسبت به مدل‌هایی مانند Opus 4.8 و Mythos 5 نشان می‌دهد. امتیازات حاصل از یک ارزیابی، که توانایی مدل‌ها را در توسعه اکسپلویت برای آسیب‌پذیری‌های مرورگر فایرفاکس آزمایش می‌کرد، در نمودار زیر نشان داده شده است. Sonnet 5 هرگز نتوانست یک اکسپلویت کامل و کارآمد توسعه دهد، اما نرخ موفقیت جزئی کمی بالاتر از Sonnet 4.6 را نشان می‌دهد. این تغییر اخیر احتمالاً به دلیل بهبود در هوش عمومی است تا آموزش خاص.

از آنجایی که Sonnet 5 در این وظایف تا حدی قوی‌تر از مدل قبلی خود است، آن را با محافظت‌های سایبری فعال شده به صورت پیش‌فرض عرضه کرده‌ایم. این محافظت‌ها – که استفاده خطرناک سایبری را در زمان واقعی شناسایی و مسدود می‌کنند – همان مواردی هستند که در Claude Opus 4.7 و 4.8 وجود دارند (زیرا ما قضاوت کردیم که سطح کلی خطر امنیت سایبری از Sonnet 5 پایین است، بنابراین محافظت‌ها کمتر سختگیرانه از مواردی هستند که با Fable 5 عرضه شدند، که طیف بسیار گسترده‌تری از وظایف امنیت سایبری را مسدود می‌کنند).

ارزیابی کامل ما از Sonnet 5 در بسیاری از ارزیابی‌های ایمنی و قابلیت در کارت سیستمی Claude Sonnet 5 گزارش شده است.

دسترسی و قیمت‌گذاری

Claude Sonnet 5 از امروز در همه جا با قیمت اولیه 2 دلار به ازای هر میلیون توکن ورودی و 10 دلار به ازای هر میلیون توکن خروجی تا تاریخ 31 آگوست 2026 در دسترس است. سپس به قیمت استاندارد 3 دلار به ازای هر میلیون توکن ورودی و 15 دلار به ازای هر میلیون توکن خروجی منتقل می‌شود. ما محدودیت‌های نرخ را در Chat، Cowork، Claude Code و پلتفرم Claude افزایش داده‌ایم تا میزان مصرف توکن بالاتر در سطوح تلاش بیشتر را پوشش دهد؛ کاربران می‌توانند هر سطحی را که برای پروژه خاص خود مناسب است، انتخاب کنند.

https://anthropic.com/news/claude-sonnet-5