بیانیه در مورد دستورالعمل دولت ایالات متحده برای تعلیق دسترسی به Fable 5 و Mythos 5

دولت ایالات متحده، با استناد به اختیارات امنیت ملی، دستورالعمل کنترل صادراتی را صادر کرده است که بر اساس آن کلیه دسترسی‌ها به Fable 5 و Mythos 5 توسط هر تبعه خارجی، چه در داخل و چه در خارج از ایالات متحده، از جمله کارکنان خارجی Anthropic، به حالت تعلیق درآید. تأثیر خالص این دستور این است که ما باید دسترسی همه مشتریانمان به Fable 5 و Mythos 5 را به طور ناگهانی غیرفعال کنیم تا از رعایت آن اطمینان حاصل شود. دسترسی به سایر مدل‌های Anthropic تحت تأثیر قرار نخواهد گرفت.

ما این دستورالعمل را امروز در ساعت ۱۷:۲۱ (به وقت شرقی) از دولت دریافت کردیم. در این نامه جزئیات خاصی در مورد نگرانی امنیت ملی ارائه نشده است. برداشت ما این است که دولت معتقد است از روشی برای دور زدن یا «جیلبریک کردن» Fable 5 مطلع شده است. ما نمایشی از این تکنیک خاص را که برای شناسایی تعداد کمی از آسیب‌پذیری‌های جزئی و از قبل شناخته شده استفاده می‌شود، بررسی کردیم. به نظر می‌رسد همه این آسیب‌پذیری‌ها نسبتاً ساده هستند و ما دریافته‌ایم که سایر مدل‌های موجود در دسترس عموم نیز می‌توانند آن‌ها را بدون نیاز به دور زدن شناسایی کنند.

موضع Anthropic در خصوص مکانیزم‌های حفاظتی Fable، همان‌طور که در پست وبلاگی معرفی ما بیان شده است، به شرح زیر است:

  • ما تدابیر حفاظتی قوی‌ای را اعمال کرده‌ایم که احتمال سوءاستفاده از Fable برای وظایف مرتبط با امنیت سایبری (و موارد دیگر) را به شدت کاهش می‌دهد. در واقع، مکانیزم‌های حفاظتی ما آنقدر قوی هستند که بسیاری از کاربران از فراگیر بودن بیش از حد آن‌ها شکایت کرده‌اند.
  • در هفته‌های منتهی به راه‌اندازی Fable، Anthropic با دولت ایالات متحده، AISI بریتانیا، چندین سازمان خصوصی ثالث و تیم‌های داخلی برای هزاران ساعت در مجموع به آزمایش و بررسی (red-team) مکانیزم‌های حفاظتی Fable پرداخت.
  • این آزمایش‌ها نشان دادند که مکانیزم‌های حفاظتی Fable به طور قابل توجهی مؤثرتر از هر مدل دیگری است که قبلاً توسعه داده شده است.
  • هیچ آزمون‌کننده‌ای تاکنون نتوانسته یک جیلبریک جهانی پیدا کند؛ یعنی روشی برای جیلبریک که بتواند به طور گسترده مکانیزم‌های حفاظتی مدل را دور زده و طیف وسیعی از قابلیت‌های سایبری را فعال کند.
  • ما گمان می‌کنیم که مقاومت کامل در برابر جیلبریک در حال حاضر برای هیچ ارائه‌دهنده مدلی امکان‌پذیر نیست. هر مکانیزم حفاظتی مورد استفاده در صنعت در برابر جیلبریک‌های غیرجهانی (که می‌توانند برخی اطلاعات سایبری را در شرایط خاص استخراج کنند) آسیب‌پذیر است و احتمالاً جیلبریک‌های جهانی در آینده پیدا خواهند شد. ما این موضوع را به وضوح هنگام انتشار Fable 5 بیان کردیم.
  • با توجه به اینکه مقاومت کامل در برابر جیلبریک در حال حاضر امکان‌پذیر نیست، Anthropic یک استراتژی دفاع چندلایه را با Fable 5 اتخاذ کرد. هدف ما این بود که جیلبریک‌ها را یا محدود (در مورد جیلبریک‌های غیرجهانی) یا بسیار پرهزینه برای تولید (در مورد جیلبریک‌های جهانی) کنیم و این را با نظارت کامل ترکیب کنیم تا هرگونه حمله موفق را به سرعت شناسایی و متوقف کنیم. به همین دلیل Anthropic نگهداری ۳۰ روزه داده‌های مشتری را برای Fable الزامی کرده است؛ تغییر سیاستی که هزینه‌های واقعی برای ما در رابطه با مشتریان دارد، اما به ما امکان تحقیق و کاهش جیلبریک‌ها را می‌دهد.
  • ما به این استراتژی دفاع چندلایه پایبندیم. این استراتژی خطرات ناشی از Fable را کاهش می‌دهد و آن‌ها را با خطرات مدل‌های موجود که در سراسر صنعت به کار گرفته شده‌اند، قابل مقایسه می‌کند.
  • ما حتی یک گزارش مبنی بر جیلبریک غیرجهانی نگران‌کننده بالقوه‌ای که منجر به نتیجه‌ای مضر شده باشد، دریافت نکرده‌ایم. جیلبریک‌های بالقوه‌ای که به ما گزارش شده‌اند، یا پاسخ‌های کاملاً بی‌خطر هستند و یا یافته‌های جزئی هستند که هیچ افزایش خاصی در قابلیت‌های Mythos ایجاد نمی‌کنند.

تا به امروز، دولت تنها شواهد شفاهی از یک جیلبریک بالقوه محدود و غیرجهانی به ما ارائه داده است که اساساً شامل درخواست از مدل برای خواندن یک پایگاه کد خاص و رفع هرگونه نقص نرم‌افزاری است. برداشت ما این است که یک جیلبریک بالقوه با دولت به اشتراک گذاشته شده است. ما گزارشی را بررسی کرده‌ایم که معتقدیم مبنای دستورالعمل دولت است و تأیید کرده‌ایم که سطح قابلیت نمایش داده شده در آن به طور گسترده از مدل‌های دیگر (از جمله GPT-5.5 شرکت OpenAI) در دسترس است و هر روز توسط مدافعانی که از سیستم‌ها محافظت می‌کنند، استفاده می‌شود. جزئیات بیشتر را طی ۲۴ ساعت آینده به اشتراک خواهیم داد.

ما در حال رعایت دستورالعمل قانونی دولت هستیم و دسترسی به Fable 5 و Mythos 5 را برای همه کاربران قطع می‌کنیم. با این حال، ما مخالف این هستیم که یافتن یک جیلبریک بالقوه محدود، دلیلی برای فراخوان یک مدل تجاری باشد که در اختیار صدها میلیون نفر قرار گرفته است. اگر این استاندارد در سراسر صنعت اعمال شود، ما معتقدیم که اساساً تمام توسعه مدل‌های جدید را برای همه ارائه‌دهندگان مدل‌های پیشرو متوقف خواهد کرد.

همان‌طور که علناً اعلام کرده‌ایم، ما معتقدیم که دولت باید توانایی مسدود کردن استقرار مدل‌های ناامن را به عنوان بخشی از یک فرآیند قانونی داشته باشد که شفاف، منصفانه، واضح و مبتنی بر واقعیت‌های فنی باشد. این اقدام با آن اصول مطابقت ندارد.

ما بابت این اختلال در خدمات‌رسانی به مشتریانمان عذرخواهی می‌کنیم. ما معتقدیم که این یک سوءتفاهم است و در تلاشیم تا در اسرع وقت دسترسی را بازیابی کنیم.