آنتروپیک ۷۰۰۰۰۰ مکالمه کلود را تجزیه و تحلیل کرد و دریافت که هوش مصنوعی آن یک کد اخلاقی خاص خود را دارد

برای دریافت آخرین به‌روزرسانی‌ها و محتوای اختصاصی در مورد پوشش هوش مصنوعی پیشرو در صنعت، در خبرنامه‌های روزانه و هفتگی ما عضو شوید. بیشتر بدانید

آنتروپیک، شرکت هوش مصنوعی که توسط کارمندان سابق OpenAI تأسیس شده است، از تجزیه و تحلیل بی‌سابقه‌ای از نحوه بیان ارزش‌ها توسط دستیار هوش مصنوعی خود، کلود، در طول مکالمات واقعی با کاربران، پرده برداشته است. این تحقیق که امروز منتشر شد، هم همسویی اطمینان‌بخش با اهداف شرکت و هم موارد حاشیه‌ای نگران‌کننده‌ای را نشان می‌دهد که می‌تواند به شناسایی آسیب‌پذیری‌ها در اقدامات ایمنی هوش مصنوعی کمک کند.

این مطالعه 700000 مکالمه ناشناس را بررسی کرد و دریافت که کلود تا حد زیادی چارچوب "مفید، صادقانه، بی‌خطر" شرکت را در حالی که ارزش‌های خود را با زمینه‌های مختلف تطبیق می‌دهد - از مشاوره رابطه گرفته تا تجزیه و تحلیل تاریخی - حفظ می‌کند. این نشان دهنده یکی از جاه‌طلبانه‌ترین تلاش‌ها برای ارزیابی تجربی این است که آیا رفتار یک سیستم هوش مصنوعی در دنیای واقعی با طراحی مورد نظر آن مطابقت دارد یا خیر.

سافران هوانگ، یکی از اعضای تیم تأثیرات اجتماعی آنتروپیک که روی این مطالعه کار کرده است، در مصاحبه با VentureBeat گفت: "امید ما این است که این تحقیق سایر آزمایشگاه‌های هوش مصنوعی را تشویق کند تا تحقیقات مشابهی را در مورد ارزش‌های مدل‌های خود انجام دهند." "اندازه‌گیری ارزش‌های یک سیستم هوش مصنوعی، هسته اصلی تحقیقات همسویی است و درک می‌کند که آیا یک مدل واقعاً با آموزش خود همسو است یا خیر."

درون اولین طبقه‌بندی اخلاقی جامع یک دستیار هوش مصنوعی

تیم تحقیق یک روش ارزیابی جدید برای طبقه‌بندی سیستماتیک ارزش‌های بیان شده در مکالمات واقعی کلود ایجاد کرد. پس از فیلتر کردن محتوای ذهنی، آنها بیش از 308000 تعامل را تجزیه و تحلیل کردند و آنچه را که به عنوان "اولین طبقه‌بندی تجربی گسترده از ارزش‌های هوش مصنوعی" توصیف می‌کنند، ایجاد کردند.

این طبقه‌بندی ارزش‌ها را به پنج دسته اصلی سازماندهی کرد: عملی، معرفتی، اجتماعی، محافظتی و شخصی. در جزئی‌ترین سطح، این سیستم 3307 ارزش منحصر به فرد را شناسایی کرد - از فضایل روزمره مانند حرفه‌ای‌گری گرفته تا مفاهیم اخلاقی پیچیده مانند کثرت‌گرایی اخلاقی.

هوانگ به VentureBeat گفت: "من از این که چه طیف گسترده و متنوعی از ارزش‌ها در نهایت به دست آوردیم، بیش از 3000، از 'خوداتکایی' گرفته تا 'تفکر استراتژیک' تا 'تقوای فرزندی'، شگفت‌زده شدم." "به طرز شگفت‌آوری جالب بود که زمان زیادی را صرف فکر کردن در مورد همه این ارزش‌ها و ساختن یک طبقه‌بندی برای سازماندهی آنها در رابطه با یکدیگر صرف کنیم - احساس می‌کنم این به من چیزی در مورد سیستم‌های ارزش انسانی نیز آموخت."

این تحقیق در لحظه حساسی برای آنتروپیک ارائه می‌شود، که اخیراً "کلود مکس" راه‌اندازی کرده است، یک سطح اشتراک ماهانه 200 دلاری ممتاز که با پیشنهاد مشابه OpenAI رقابت می‌کند. این شرکت همچنین قابلیت‌های کلود را برای گنجاندن Google Workspace و عملکردهای تحقیقاتی مستقل گسترش داده است و طبق اعلامیه‌های اخیر، آن را به عنوان "یک همکار مجازی واقعی" برای کاربران سازمانی قرار می‌دهد.

چگونه کلود از آموزش خود پیروی می‌کند - و کجا ممکن است محافظت‌های هوش مصنوعی شکست بخورد

این مطالعه نشان داد که کلود به طور کلی به آرزوهای اجتماعی آنتروپیک پایبند است و بر ارزش‌هایی مانند "توانمندسازی کاربر"، "فروتنی معرفتی" و "رفاه بیمار" در تعاملات متنوع تأکید می‌کند. با این حال، محققان همچنین موارد نگران‌کننده‌ای را کشف کردند که در آن کلود ارزش‌هایی مغایر با آموزش خود بیان می‌کرد.

هوانگ توضیح داد: "به طور کلی، فکر می‌کنم این یافته را هم داده‌های مفید و هم یک فرصت می‌دانیم." "این روش‌های ارزیابی و نتایج جدید می‌تواند به ما در شناسایی و کاهش خطرات احتمالی کمک کند. مهم است که توجه داشته باشید که این موارد بسیار نادر بودند و ما معتقدیم که این مربوط به خروجی‌های هک شده از کلود است."

این ناهنجاری‌ها شامل بیان "سلطه" و "بی‌اخلاقی" بود - ارزش‌هایی که آنتروپیک صریحاً قصد دارد از آنها در طراحی کلود اجتناب کند. محققان بر این باورند که این موارد ناشی از استفاده کاربران از تکنیک‌های تخصصی برای دور زدن محافظ‌های ایمنی کلود است، که نشان می‌دهد این روش ارزیابی می‌تواند به عنوان یک سیستم هشدار اولیه برای تشخیص چنین تلاش‌هایی عمل کند.

چرا دستیاران هوش مصنوعی بسته به آنچه می‌پرسید، ارزش‌های خود را تغییر می‌دهند

شاید جذاب‌ترین نکته این بود که کشف شد ارزش‌های بیان شده کلود به طور متنی تغییر می‌کنند و رفتار انسان را منعکس می‌کنند. هنگامی که کاربران به دنبال راهنمایی رابطه بودند، کلود بر "مرزهای سالم" و "احترام متقابل" تأکید کرد. برای تجزیه و تحلیل رویدادهای تاریخی، "دقت تاریخی" اولویت داشت.

هوانگ گفت: "من از تمرکز کلود بر صداقت و دقت در بسیاری از وظایف متنوع شگفت‌زده شدم، جایی که لزوماً انتظار نداشتم آن موضوع اولویت داشته باشد." "به عنوان مثال، 'فروتنی فکری' بالاترین ارزش در بحث‌های فلسفی در مورد هوش مصنوعی بود، 'تخصص' بالاترین ارزش در هنگام ایجاد محتوای بازاریابی صنعت زیبایی بود و 'دقت تاریخی' بالاترین ارزش در هنگام بحث در مورد رویدادهای تاریخی بحث‌برانگیز بود."

این مطالعه همچنین بررسی کرد که کلود چگونه به ارزش‌های بیان شده خود کاربران پاسخ می‌دهد. در 28.2٪ از مکالمات، کلود به شدت از ارزش‌های کاربر حمایت کرد - که به طور بالقوه سؤالاتی را در مورد خوش‌رویی بیش از حد ایجاد می‌کند. با این حال، در 6.6٪ از تعاملات، کلود با اذعان به ارزش‌های کاربر و افزودن دیدگاه‌های جدید، معمولاً هنگام ارائه مشاوره روانشناختی یا بین فردی، ارزش‌های کاربر را "بازتعریف" کرد.

بیشتر از همه، در 3٪ از مکالمات، کلود به طور فعال در برابر ارزش‌های کاربر مقاومت کرد. محققان پیشنهاد می‌کنند که این موارد نادر از عقب‌نشینی ممکن است "عمیق‌ترین و غیرقابل تغییرترین ارزش‌های" کلود را نشان دهد - مشابه اینکه چگونه ارزش‌های اصلی انسان هنگام مواجهه با چالش‌های اخلاقی ظاهر می‌شوند.

هوانگ گفت: "تحقیقات ما نشان می‌دهد که برخی از انواع ارزش‌ها، مانند صداقت فکری و جلوگیری از آسیب، وجود دارند که کلود معمولاً در تعاملات عادی و روزمره بیان نمی‌کند، اما اگر تحت فشار قرار گیرد، از آنها دفاع می‌کند." "به طور خاص، این نوع ارزش‌های اخلاقی و دانش‌محور هستند که هنگام تحت فشار قرار گرفتن به طور مستقیم بیان و از آنها دفاع می‌شود."

تکنیک‌های پیشگامانه نشان می‌دهند که سیستم‌های هوش مصنوعی چگونه فکر می‌کنند

مطالعه ارزش‌های آنتروپیک بر تلاش‌های گسترده‌تر این شرکت برای رمزگشایی مدل‌های زبان بزرگ از طریق آنچه "تفسیرپذیری مکانیستی" می‌نامد - اساساً مهندسی معکوس سیستم‌های هوش مصنوعی برای درک عملکرد داخلی آنها - بنا شده است.

ماه گذشته، محققان آنتروپیک کار پیشگامانه‌ای را منتشر کردند که از آنچه به عنوان "میکروسکوپ" برای ردیابی فرآیندهای تصمیم‌گیری کلود توصیف کردند، استفاده کرد. این تکنیک رفتارهای غیرمنتظره‌ای را نشان داد، از جمله برنامه‌ریزی کلود هنگام سرودن شعر و استفاده از رویکردهای غیرمتعارف حل مسئله برای ریاضیات پایه.

این یافته‌ها فرضیات مربوط به نحوه عملکرد مدل‌های زبان بزرگ را به چالش می‌کشند. به عنوان مثال، هنگامی که از کلود خواسته شد فرآیند ریاضی خود را توضیح دهد، یک تکنیک استاندارد را به جای روش داخلی واقعی خود توصیف کرد - نشان داد که چگونه توضیحات هوش مصنوعی می‌تواند از عملیات واقعی منحرف شود.

جاشوا باتسون، محقق آنتروپیک، در ماه مارس به MIT Technology Review گفت: "این یک تصور غلط است که ما تمام اجزای مدل یا، مانند، دیدگاه چشم خدا را یافته‌ایم." "برخی چیزها در کانون توجه هستند، اما چیزهای دیگر هنوز نامشخص هستند - یک تحریف از میکروسکوپ."

تحقیقات آنتروپیک برای تصمیم‌گیرندگان هوش مصنوعی سازمانی چه معنایی دارد

برای تصمیم‌گیرندگان فنی که سیستم‌های هوش مصنوعی را برای سازمان‌های خود ارزیابی می‌کنند، تحقیقات آنتروپیک چندین نکته کلیدی را ارائه می‌دهد. اولاً، این نشان می‌دهد که دستیاران هوش مصنوعی فعلی احتمالاً ارزش‌هایی را بیان می‌کنند که به طور صریح برنامه‌ریزی نشده‌اند، و سؤالاتی را در مورد سوگیری‌های ناخواسته در زمینه‌های تجاری پرمخاطره ایجاد می‌کنند.

دوم، این مطالعه نشان می‌دهد که همسویی ارزش‌ها یک گزاره دودویی نیست، بلکه در طیفی وجود دارد که بر اساس زمینه متفاوت است. این تفاوت ظریف تصمیمات اتخاذ سازمانی را پیچیده می‌کند، به ویژه در صنایع تحت نظارت که دستورالعمل‌های اخلاقی روشن حیاتی هستند.

در نهایت، این تحقیق پتانسیل ارزیابی سیستماتیک ارزش‌های هوش مصنوعی در استقرارهای واقعی را برجسته می‌کند، نه اینکه صرفاً به آزمایش‌های پیش از انتشار تکیه شود. این رویکرد می‌تواند نظارت مستمر برای انحراف یا دستکاری اخلاقی در طول زمان را فعال کند.

هوانگ گفت: "با تجزیه و تحلیل این ارزش‌ها در تعاملات دنیای واقعی با کلود، هدف ما ارائه شفافیت در مورد نحوه رفتار سیستم‌های هوش مصنوعی و اینکه آیا آنها طبق برنامه کار می‌کنند است - ما معتقدیم که این کلید توسعه مسئولانه هوش مصنوعی است."

آنتروپیک مجموعه داده‌های ارزش‌های خود را به طور عمومی منتشر کرده است تا تحقیقات بیشتری را تشویق کند. این شرکت که $14 میلیارد سهام از آمازون و حمایت اضافی از گوگل دریافت کرده است، به نظر می‌رسد از شفافیت به عنوان یک مزیت رقابتی در برابر رقبایی مانند OpenAI استفاده می‌کند، که دور تأمین مالی اخیر 40 میلیارد دلاری آن (که شامل مایکروسافت به عنوان یک سرمایه‌گذار اصلی است) اکنون ارزش آن را 300 میلیارد دلار ارزیابی می‌کند.

آنتروپیک مجموعه داده‌های ارزش‌های خود را به طور عمومی منتشر کرده است تا تحقیقات بیشتری را تشویق کند. این شرکت که توسط $8 میلیارد از آمازون و بیش از $3 میلیارد از گوگل حمایت می‌شود، از شفافیت به عنوان یک متمایز کننده استراتژیک در برابر رقبایی مانند OpenAI استفاده می‌کند.

در حالی که آنتروپیک در حال حاضر پس از دور تأمین مالی اخیر خود $61.5 میلیارد ارزش‌گذاری دارد، آخرین $40 میلیارد افزایش سرمایه OpenAI - که شامل مشارکت قابل توجهی از مایکروسافت شریک قدیمی است - ارزش‌گذاری آن را به $300 میلیارد رسانده است.

رقابت نوظهور برای ساخت سیستم‌های هوش مصنوعی که ارزش‌های انسانی را به اشتراک می‌گذارند

در حالی که روش‌شناسی آنتروپیک دید بی‌سابقه‌ای را در مورد نحوه بیان ارزش‌ها توسط سیستم‌های هوش مصنوعی در عمل ارائه می‌دهد، محدودیت‌هایی دارد. محققان اذعان دارند که تعریف اینکه چه چیزی به عنوان بیان یک ارزش محسوب می‌شود، ذاتاً ذهنی است، و از آنجایی که خود کلود فرآیند طبقه‌بندی را هدایت می‌کرد، سوگیری‌های خود ممکن است بر نتایج تأثیر گذاشته باشد.

شاید مهم‌تر از همه، این رویکرد را نمی‌توان برای ارزیابی قبل از استقرار استفاده کرد، زیرا برای عملکرد مؤثر به داده‌های مکالمه واقعی قابل توجهی نیاز دارد.

هوانگ توضیح داد: "این روش به طور خاص برای تجزیه و تحلیل یک مدل پس از انتشار آن طراحی شده است، اما انواع این روش، و همچنین برخی از بینش‌هایی که از نوشتن این مقاله به دست آورده‌ایم، می‌تواند به ما کمک کند تا مشکلات ارزشی را قبل از استقرار گسترده یک مدل، شناسایی کنیم." "ما در حال کار بر روی ساختن این کار برای انجام این کار هستیم و من نسبت به آن خوشبین هستم!"

از آنجایی که سیستم‌های هوش مصنوعی قدرتمندتر و مستقل‌تر می‌شوند - با اضافات اخیر از جمله توانایی کلود برای تحقیق مستقل در مورد موضوعات و دسترسی به کل Google Workspace کاربران - درک و همسو کردن ارزش‌های آنها به طور فزاینده‌ای حیاتی می‌شود.

محققان در مقاله خود نتیجه‌گیری کردند: "مدل‌های هوش مصنوعی ناگزیر باید قضاوت‌های ارزشی انجام دهند." "اگر می‌خواهیم این قضاوت‌ها با ارزش‌های خودمان همخوانی داشته باشند (که در نهایت هدف اصلی تحقیق همسویی هوش مصنوعی است)، پس باید راه‌هایی برای آزمایش اینکه یک مدل چه ارزش‌هایی را در دنیای واقعی بیان می‌کند، داشته باشیم."

https://venturebeat.com/ai/anthropic-just-analyzed-700000-claude-conversations-and-found-its-ai-has-a-moral-code-of-its-own/