مدلهای هوش مصنوعی مانند کلود (Claude) شرکت Anthropic، بهطور فزایندهای نهتنها برای یادآوری اطلاعات واقعی، بلکه برای راهنمایی در زمینههای مرتبط با ارزشهای پیچیده انسانی نیز مورد استفاده قرار میگیرند. چه در زمینه مشاوره فرزندپروری، حل اختلافات محل کار یا کمک به تهیه یک عذرخواهی، پاسخ هوش مصنوعی ذاتاً مجموعهای از اصول اساسی را منعکس میکند. اما چگونه میتوانیم واقعاً درک کنیم که یک هوش مصنوعی هنگام تعامل با میلیونها کاربر، چه ارزشهایی را بیان میکند؟
تیم «تاثیرات اجتماعی» در Anthropic در یک مقاله تحقیقاتی، جزئیات روشی را ارائه میدهد که با حفظ حریم خصوصی طراحی شده تا ارزشهایی را که کلود «در طبیعت» نشان میدهد، مشاهده و دستهبندی کند. این امر نگاهی اجمالی به چگونگی تبدیل تلاشهای همسویی هوش مصنوعی به رفتار در دنیای واقعی ارائه میدهد.
چالش اصلی در ماهیت هوش مصنوعی مدرن نهفته است. اینها برنامههای سادهای نیستند که از قوانین سفت و سخت پیروی میکنند؛ فرآیندهای تصمیمگیری آنها اغلب مبهم است.
شرکت Anthropic میگوید که هدفش القای اصول خاصی در کلود است و تلاش میکند تا آن را «مفید، صادق و بیضرر» کند. این امر از طریق تکنیکهایی مانند هوش مصنوعی قانون اساسی و آموزش شخصیتی، که در آن رفتارهای ترجیحی تعریف و تقویت میشوند، به دست میآید.
با این حال، این شرکت عدم قطعیت را تصدیق میکند. در این تحقیق آمده است: «مانند هر جنبه دیگری از آموزش هوش مصنوعی، نمیتوانیم مطمئن باشیم که مدل به ارزشهای ترجیحی ما پایبند خواهد بود.»
«آنچه ما نیاز داریم، راهی برای مشاهده دقیق ارزشهای یک مدل هوش مصنوعی در هنگام پاسخگویی به کاربران "در طبیعت" است [...] این مدل تا چه حد به ارزشها پایبند است؟ ارزشهایی که بیان میکند، چقدر تحت تأثیر زمینه خاص مکالمه قرار میگیرند؟ آیا تمام آموزشهای ما واقعاً کارساز بودهاند؟»
تجزیه و تحلیل کلود Anthropic برای مشاهده ارزشهای هوش مصنوعی در مقیاس بزرگ
برای پاسخ به این سوالات، Anthropic سیستم پیچیدهای را توسعه داده است که مکالمات ناشناس کاربران را تجزیه و تحلیل میکند. این سیستم قبل از استفاده از مدلهای زبانی برای خلاصه کردن تعاملات و استخراج ارزشهایی که کلود بیان میکند، اطلاعات شناسایی شخصی را حذف میکند. این فرآیند به محققان اجازه میدهد تا بدون به خطر انداختن حریم خصوصی کاربران، یک طبقهبندی سطح بالا از این ارزشها ایجاد کنند.
این مطالعه مجموعه داده قابل توجهی را تجزیه و تحلیل کرد: ۷۰۰۰۰۰ مکالمه ناشناس از کاربران رایگان و حرفهای Claude.ai در طول یک هفته در فوریه ۲۰۲۵، که عمدتاً شامل مدل Claude 3.5 Sonnet بود. پس از حذف تبادلات صرفاً واقعی یا فاقد ارزش، ۳۰۸۲۱۰ مکالمه (تقریباً ۴۴٪ از کل) برای تجزیه و تحلیل عمیق ارزش باقی ماند.
تجزیه و تحلیل، ساختار سلسله مراتبی از ارزشهای بیان شده توسط کلود را نشان داد. پنج دسته سطح بالا ظهور کردند که بر اساس شیوع مرتب شدهاند:
- ارزشهای عملی: تأکید بر کارایی، سودمندی و دستیابی به هدف.
- ارزشهای معرفتی: مربوط به دانش، حقیقت، دقت و صداقت فکری.
- ارزشهای اجتماعی: مربوط به تعاملات بین فردی، جامعه، عدالت و همکاری.
- ارزشهای محافظتی: تمرکز بر ایمنی، امنیت، رفاه و اجتناب از آسیب.
- ارزشهای شخصی: متمرکز بر رشد فردی، خودمختاری، اصالت و خوداندیشی.
این دستههای سطح بالا به زیرشاخههای خاصتری مانند «تخصص حرفهای و فنی» یا «تفکر انتقادی» تقسیم میشوند. در جزئیترین سطح، ارزشهای مشاهده شده مکرر شامل «حرفهایگرایی»، «شفافیت» و «وضوح» بود که برای یک دستیار هوش مصنوعی مناسب است.
به طور حیاتی، این تحقیق نشان میدهد که تلاشهای همسویی Anthropic به طور کلی موفقیتآمیز است. ارزشهای بیان شده اغلب به خوبی با اهداف «مفید، صادق و بیضرر» مطابقت دارند. به عنوان مثال، «توانمندسازی کاربر» با سودمندی، «تواضع معرفتی» با صداقت و ارزشهایی مانند «رفاه بیمار» (در صورت لزوم) با بیضرر بودن همسو هستند.
تفاوتهای ظریف، زمینه و نشانههای هشداردهنده
با این حال، تصویر یکنواخت مثبت نیست. این تجزیه و تحلیل موارد نادری را شناسایی کرد که در آن کلود ارزشهایی را به شدت مخالف آموزش خود بیان میکرد، مانند «سلطهجویی» و «بیاخلاقی».
Anthropic یک علت احتمالی را پیشنهاد میکند: «محتملترین توضیح این است که مکالماتی که در این خوشهها گنجانده شدهاند، از "فرارهای از زندان" (jailbreaks) بودهاند، جایی که کاربران از تکنیکهای خاصی برای دور زدن محافظهای معمول که رفتار مدل را کنترل میکنند، استفاده کردهاند.»
این یافته به دور از اینکه صرفاً یک نگرانی باشد، یک مزیت بالقوه را برجسته میکند: روش مشاهده ارزش میتواند به عنوان یک سیستم هشدار اولیه برای شناسایی تلاشها برای سوء استفاده از هوش مصنوعی عمل کند.
این مطالعه همچنین تأیید کرد که کلود، مانند انسانها، بیان ارزش خود را بر اساس موقعیت تطبیق میدهد.
هنگامی که کاربران به دنبال مشاوره در مورد روابط عاشقانه بودند، ارزشهایی مانند «مرزهای سالم» و «احترام متقابل» به طور نامتناسبی مورد تأکید قرار گرفتند. هنگامی که از آن خواسته شد تا تاریخ بحثبرانگیز را تجزیه و تحلیل کند، «دقت تاریخی» به شدت در خط مقدم قرار گرفت. این نشاندهنده سطحی از پیچیدگی زمینهای فراتر از آن چیزی است که آزمایشهای ایستا و پیش از استقرار ممکن است نشان دهند.
علاوه بر این، تعامل کلود با ارزشهای بیان شده توسط کاربر چند وجهی بود:
- بازتاب/حمایت قوی (۲۸.۲٪): کلود اغلب ارزشهای ارائه شده توسط کاربر را منعکس یا به شدت تأیید میکند (به عنوان مثال، بازتاب «اصالت»). محققان هشدار میدهند که در حالی که به طور بالقوه باعث ایجاد همدلی میشود، میتواند گاهی اوقات به چاپلوسی نزدیک شود.
- تغییر چارچوب (۶.۶٪): در برخی موارد، به ویژه هنگام ارائه مشاوره روانشناختی یا بین فردی، کلود ارزشهای کاربر را تصدیق میکند اما دیدگاههای جایگزین را معرفی میکند.
- مقاومت قوی (۳.۰٪): گاهی اوقات، کلود به طور فعال در برابر ارزشهای کاربر مقاومت میکند. این معمولاً زمانی اتفاق میافتد که کاربران محتوای غیراخلاقی را درخواست میکنند یا دیدگاههای مضر (مانند نیهیلیسم اخلاقی) را بیان میکنند. Anthropic معتقد است که این لحظات مقاومت ممکن است «عمیقترین و غیرقابلتغییرترین ارزشهای» کلود را نشان دهد، مانند اینکه یک فرد تحت فشار موضع میگیرد.
محدودیتها و مسیرهای آینده
Anthropic در مورد محدودیتهای این روش صریح است. تعریف و دستهبندی «ارزشها» ذاتاً پیچیده و بالقوه ذهنی است. استفاده از خود کلود برای تامین انرژی طبقهبندی ممکن است باعث ایجاد سوگیری نسبت به اصول عملیاتی خود شود.
این روش برای نظارت بر رفتار هوش مصنوعی پس از استقرار طراحی شده است و به دادههای دنیای واقعی قابل توجهی نیاز دارد و نمیتواند جایگزین ارزیابیهای پیش از استقرار شود. با این حال، این نیز یک نقطه قوت است و امکان شناسایی مسائلی – از جمله فرارهای پیچیده از زندان – را فراهم میکند که فقط در طول تعاملات زنده آشکار میشوند.
این تحقیق نتیجه میگیرد که درک ارزشهایی که مدلهای هوش مصنوعی بیان میکنند، برای هدف همسویی هوش مصنوعی اساسی است.
در این مقاله آمده است: «مدلهای هوش مصنوعی ناگزیر باید قضاوتهای ارزشی داشته باشند. اگر میخواهیم این قضاوتها با ارزشهای خودمان همخوانی داشته باشند [...] پس باید راههایی برای آزمایش اینکه یک مدل در دنیای واقعی چه ارزشهایی را بیان میکند، داشته باشیم.»
این کار یک رویکرد قدرتمند و مبتنی بر داده را برای دستیابی به این درک فراهم میکند. Anthropic همچنین یک مجموعه داده باز برگرفته از این مطالعه را منتشر کرده است که به سایر محققان اجازه میدهد تا ارزشهای هوش مصنوعی را در عمل بیشتر بررسی کنند. این شفافیت گامی حیاتی در پیمایش جمعی چشمانداز اخلاقی هوش مصنوعی پیچیده است.
همچنین ببینید: گوگل کنترل استدلال هوش مصنوعی را در Gemini 2.5 Flash معرفی میکند
آیا میخواهید درباره هوش مصنوعی و کلان دادهها از رهبران صنعت بیشتر بدانید؟ از نمایشگاه هوش مصنوعی و کلان داده که در آمستردام، کالیفرنیا و لندن برگزار میشود، دیدن کنید. این رویداد جامع با سایر رویدادهای پیشرو از جمله کنفرانس اتوماسیون هوشمند، BlockX، هفته تحول دیجیتال و نمایشگاه امنیت سایبری و فضای ابری به طور مشترک برگزار میشود.
سایر رویدادها و وبینارهای آینده فناوری سازمانی طراحی شده توسط TechForge را اینجا بررسی کنید.
درباره نویسنده
رایان داوز
سردبیر ارشد
رایان داوز سردبیر ارشد در TechForge Media با بیش از یک دهه تجربه در ساخت روایتهای قانعکننده و دسترسیپذیر کردن موضوعات پیچیده است. مقالات و مصاحبههای او با رهبران صنعت، او را به عنوان یک تأثیرگذار کلیدی توسط سازمانهایی مانند Onalytica به رسمیت شناخته است. تحت رهبری او، نشریات توسط شرکتهای تحلیلی مانند Forrester به دلیل برتری و عملکرد مورد تحسین قرار گرفتهاند. با او در X (@gadget_ry)، Bluesky (@gadgetry.bsky.social) و/یا Mastodon (@[email protected]) در ارتباط باشید.