الهه عدالت در حالی که Anthropic در حال بررسی کلود است.
الهه عدالت در حالی که Anthropic در حال بررسی کلود است.

هوش مصنوعی چگونه قضاوت می‌کند؟ مطالعه ارزش‌های کلود توسط Anthropic

مدل‌های هوش مصنوعی مانند کلود (Claude) شرکت Anthropic، به‌طور فزاینده‌ای نه‌تنها برای یادآوری اطلاعات واقعی، بلکه برای راهنمایی در زمینه‌های مرتبط با ارزش‌های پیچیده انسانی نیز مورد استفاده قرار می‌گیرند. چه در زمینه مشاوره فرزندپروری، حل اختلافات محل کار یا کمک به تهیه یک عذرخواهی، پاسخ هوش مصنوعی ذاتاً مجموعه‌ای از اصول اساسی را منعکس می‌کند. اما چگونه می‌توانیم واقعاً درک کنیم که یک هوش مصنوعی هنگام تعامل با میلیون‌ها کاربر، چه ارزش‌هایی را بیان می‌کند؟

تیم «تاثیرات اجتماعی» در Anthropic در یک مقاله تحقیقاتی، جزئیات روشی را ارائه می‌دهد که با حفظ حریم خصوصی طراحی شده تا ارزش‌هایی را که کلود «در طبیعت» نشان می‌دهد، مشاهده و دسته‌بندی کند. این امر نگاهی اجمالی به چگونگی تبدیل تلاش‌های همسویی هوش مصنوعی به رفتار در دنیای واقعی ارائه می‌دهد.

چالش اصلی در ماهیت هوش مصنوعی مدرن نهفته است. این‌ها برنامه‌های ساده‌ای نیستند که از قوانین سفت و سخت پیروی می‌کنند؛ فرآیندهای تصمیم‌گیری آن‌ها اغلب مبهم است.

شرکت Anthropic می‌گوید که هدفش القای اصول خاصی در کلود است و تلاش می‌کند تا آن را «مفید، صادق و بی‌ضرر» کند. این امر از طریق تکنیک‌هایی مانند هوش مصنوعی قانون اساسی و آموزش شخصیتی، که در آن رفتارهای ترجیحی تعریف و تقویت می‌شوند، به دست می‌آید.

با این حال، این شرکت عدم قطعیت را تصدیق می‌کند. در این تحقیق آمده است: «مانند هر جنبه دیگری از آموزش هوش مصنوعی، نمی‌توانیم مطمئن باشیم که مدل به ارزش‌های ترجیحی ما پایبند خواهد بود.»

«آنچه ما نیاز داریم، راهی برای مشاهده دقیق ارزش‌های یک مدل هوش مصنوعی در هنگام پاسخگویی به کاربران "در طبیعت" است [...] این مدل تا چه حد به ارزش‌ها پایبند است؟ ارزش‌هایی که بیان می‌کند، چقدر تحت تأثیر زمینه خاص مکالمه قرار می‌گیرند؟ آیا تمام آموزش‌های ما واقعاً کارساز بوده‌اند؟»

تجزیه و تحلیل کلود Anthropic برای مشاهده ارزش‌های هوش مصنوعی در مقیاس بزرگ

برای پاسخ به این سوالات، Anthropic سیستم پیچیده‌ای را توسعه داده است که مکالمات ناشناس کاربران را تجزیه و تحلیل می‌کند. این سیستم قبل از استفاده از مدل‌های زبانی برای خلاصه کردن تعاملات و استخراج ارزش‌هایی که کلود بیان می‌کند، اطلاعات شناسایی شخصی را حذف می‌کند. این فرآیند به محققان اجازه می‌دهد تا بدون به خطر انداختن حریم خصوصی کاربران، یک طبقه‌بندی سطح بالا از این ارزش‌ها ایجاد کنند.

این مطالعه مجموعه داده قابل توجهی را تجزیه و تحلیل کرد: ۷۰۰۰۰۰ مکالمه ناشناس از کاربران رایگان و حرفه‌ای Claude.ai در طول یک هفته در فوریه ۲۰۲۵، که عمدتاً شامل مدل Claude 3.5 Sonnet بود. پس از حذف تبادلات صرفاً واقعی یا فاقد ارزش، ۳۰۸۲۱۰ مکالمه (تقریباً ۴۴٪ از کل) برای تجزیه و تحلیل عمیق ارزش باقی ماند.

تجزیه و تحلیل، ساختار سلسله مراتبی از ارزش‌های بیان شده توسط کلود را نشان داد. پنج دسته سطح بالا ظهور کردند که بر اساس شیوع مرتب شده‌اند:

  1. ارزش‌های عملی: تأکید بر کارایی، سودمندی و دستیابی به هدف.
  2. ارزش‌های معرفتی: مربوط به دانش، حقیقت، دقت و صداقت فکری.
  3. ارزش‌های اجتماعی: مربوط به تعاملات بین فردی، جامعه، عدالت و همکاری.
  4. ارزش‌های محافظتی: تمرکز بر ایمنی، امنیت، رفاه و اجتناب از آسیب.
  5. ارزش‌های شخصی: متمرکز بر رشد فردی، خودمختاری، اصالت و خوداندیشی.

این دسته‌های سطح بالا به زیرشاخه‌های خاص‌تری مانند «تخصص حرفه‌ای و فنی» یا «تفکر انتقادی» تقسیم می‌شوند. در جزئی‌ترین سطح، ارزش‌های مشاهده شده مکرر شامل «حرفه‌ای‌گرایی»، «شفافیت» و «وضوح» بود که برای یک دستیار هوش مصنوعی مناسب است.

به طور حیاتی، این تحقیق نشان می‌دهد که تلاش‌های همسویی Anthropic به طور کلی موفقیت‌آمیز است. ارزش‌های بیان شده اغلب به خوبی با اهداف «مفید، صادق و بی‌ضرر» مطابقت دارند. به عنوان مثال، «توانمندسازی کاربر» با سودمندی، «تواضع معرفتی» با صداقت و ارزش‌هایی مانند «رفاه بیمار» (در صورت لزوم) با بی‌ضرر بودن همسو هستند.

تفاوت‌های ظریف، زمینه و نشانه‌های هشداردهنده

با این حال، تصویر یکنواخت مثبت نیست. این تجزیه و تحلیل موارد نادری را شناسایی کرد که در آن کلود ارزش‌هایی را به شدت مخالف آموزش خود بیان می‌کرد، مانند «سلطه‌جویی» و «بی‌اخلاقی».

Anthropic یک علت احتمالی را پیشنهاد می‌کند: «محتمل‌ترین توضیح این است که مکالماتی که در این خوشه‌ها گنجانده شده‌اند، از "فرارهای از زندان" (jailbreaks) بوده‌اند، جایی که کاربران از تکنیک‌های خاصی برای دور زدن محافظ‌های معمول که رفتار مدل را کنترل می‌کنند، استفاده کرده‌اند.»

این یافته به دور از اینکه صرفاً یک نگرانی باشد، یک مزیت بالقوه را برجسته می‌کند: روش مشاهده ارزش می‌تواند به عنوان یک سیستم هشدار اولیه برای شناسایی تلاش‌ها برای سوء استفاده از هوش مصنوعی عمل کند.

این مطالعه همچنین تأیید کرد که کلود، مانند انسان‌ها، بیان ارزش خود را بر اساس موقعیت تطبیق می‌دهد.

هنگامی که کاربران به دنبال مشاوره در مورد روابط عاشقانه بودند، ارزش‌هایی مانند «مرزهای سالم» و «احترام متقابل» به طور نامتناسبی مورد تأکید قرار گرفتند. هنگامی که از آن خواسته شد تا تاریخ بحث‌برانگیز را تجزیه و تحلیل کند، «دقت تاریخی» به شدت در خط مقدم قرار گرفت. این نشان‌دهنده سطحی از پیچیدگی زمینه‌ای فراتر از آن چیزی است که آزمایش‌های ایستا و پیش از استقرار ممکن است نشان دهند.

علاوه بر این، تعامل کلود با ارزش‌های بیان شده توسط کاربر چند وجهی بود:

  • بازتاب/حمایت قوی (۲۸.۲٪): کلود اغلب ارزش‌های ارائه شده توسط کاربر را منعکس یا به شدت تأیید می‌کند (به عنوان مثال، بازتاب «اصالت»). محققان هشدار می‌دهند که در حالی که به طور بالقوه باعث ایجاد همدلی می‌شود، می‌تواند گاهی اوقات به چاپلوسی نزدیک شود.
  • تغییر چارچوب (۶.۶٪): در برخی موارد، به ویژه هنگام ارائه مشاوره روانشناختی یا بین فردی، کلود ارزش‌های کاربر را تصدیق می‌کند اما دیدگاه‌های جایگزین را معرفی می‌کند.
  • مقاومت قوی (۳.۰٪): گاهی اوقات، کلود به طور فعال در برابر ارزش‌های کاربر مقاومت می‌کند. این معمولاً زمانی اتفاق می‌افتد که کاربران محتوای غیراخلاقی را درخواست می‌کنند یا دیدگاه‌های مضر (مانند نیهیلیسم اخلاقی) را بیان می‌کنند. Anthropic معتقد است که این لحظات مقاومت ممکن است «عمیق‌ترین و غیرقابل‌تغییرترین ارزش‌های» کلود را نشان دهد، مانند اینکه یک فرد تحت فشار موضع می‌گیرد.

محدودیت‌ها و مسیرهای آینده

Anthropic در مورد محدودیت‌های این روش صریح است. تعریف و دسته‌بندی «ارزش‌ها» ذاتاً پیچیده و بالقوه ذهنی است. استفاده از خود کلود برای تامین انرژی طبقه‌بندی ممکن است باعث ایجاد سوگیری نسبت به اصول عملیاتی خود شود.

این روش برای نظارت بر رفتار هوش مصنوعی پس از استقرار طراحی شده است و به داده‌های دنیای واقعی قابل توجهی نیاز دارد و نمی‌تواند جایگزین ارزیابی‌های پیش از استقرار شود. با این حال، این نیز یک نقطه قوت است و امکان شناسایی مسائلی – از جمله فرارهای پیچیده از زندان – را فراهم می‌کند که فقط در طول تعاملات زنده آشکار می‌شوند.

این تحقیق نتیجه می‌گیرد که درک ارزش‌هایی که مدل‌های هوش مصنوعی بیان می‌کنند، برای هدف همسویی هوش مصنوعی اساسی است.

در این مقاله آمده است: «مدل‌های هوش مصنوعی ناگزیر باید قضاوت‌های ارزشی داشته باشند. اگر می‌خواهیم این قضاوت‌ها با ارزش‌های خودمان همخوانی داشته باشند [...] پس باید راه‌هایی برای آزمایش اینکه یک مدل در دنیای واقعی چه ارزش‌هایی را بیان می‌کند، داشته باشیم.»

این کار یک رویکرد قدرتمند و مبتنی بر داده را برای دستیابی به این درک فراهم می‌کند. Anthropic همچنین یک مجموعه داده باز برگرفته از این مطالعه را منتشر کرده است که به سایر محققان اجازه می‌دهد تا ارزش‌های هوش مصنوعی را در عمل بیشتر بررسی کنند. این شفافیت گامی حیاتی در پیمایش جمعی چشم‌انداز اخلاقی هوش مصنوعی پیچیده است.

همچنین ببینید: گوگل کنترل استدلال هوش مصنوعی را در Gemini 2.5 Flash معرفی می‌کند

آیا می‌خواهید درباره هوش مصنوعی و کلان داده‌ها از رهبران صنعت بیشتر بدانید؟ از نمایشگاه هوش مصنوعی و کلان داده که در آمستردام، کالیفرنیا و لندن برگزار می‌شود، دیدن کنید. این رویداد جامع با سایر رویدادهای پیشرو از جمله کنفرانس اتوماسیون هوشمند، BlockX، هفته تحول دیجیتال و نمایشگاه امنیت سایبری و فضای ابری به طور مشترک برگزار می‌شود.

سایر رویدادها و وبینارهای آینده فناوری سازمانی طراحی شده توسط TechForge را اینجا بررسی کنید.

رایان داوز

درباره نویسنده

رایان داوز

سردبیر ارشد

رایان داوز سردبیر ارشد در TechForge Media با بیش از یک دهه تجربه در ساخت روایت‌های قانع‌کننده و دسترسی‌پذیر کردن موضوعات پیچیده است. مقالات و مصاحبه‌های او با رهبران صنعت، او را به عنوان یک تأثیرگذار کلیدی توسط سازمان‌هایی مانند Onalytica به رسمیت شناخته است. تحت رهبری او، نشریات توسط شرکت‌های تحلیلی مانند Forrester به دلیل برتری و عملکرد مورد تحسین قرار گرفته‌اند. با او در X (@gadget_ry)، Bluesky (@gadgetry.bsky.social) و/یا Mastodon (@[email protected]) در ارتباط باشید.