برای دریافت آخرین بهروزرسانیها و محتوای اختصاصی در مورد پوشش هوش مصنوعی پیشرو در صنعت، در خبرنامههای روزانه و هفتگی ما عضو شوید. بیشتر بدانید
آنتروپیک، شرکت هوش مصنوعی که توسط کارمندان سابق OpenAI تأسیس شده است، از تجزیه و تحلیل بیسابقهای از نحوه بیان ارزشها توسط دستیار هوش مصنوعی خود، کلود، در طول مکالمات واقعی با کاربران، پرده برداشته است. این تحقیق که امروز منتشر شد، هم همسویی اطمینانبخش با اهداف شرکت و هم موارد حاشیهای نگرانکنندهای را نشان میدهد که میتواند به شناسایی آسیبپذیریها در اقدامات ایمنی هوش مصنوعی کمک کند.
این مطالعه 700000 مکالمه ناشناس را بررسی کرد و دریافت که کلود تا حد زیادی چارچوب "مفید، صادقانه، بیخطر" شرکت را در حالی که ارزشهای خود را با زمینههای مختلف تطبیق میدهد - از مشاوره رابطه گرفته تا تجزیه و تحلیل تاریخی - حفظ میکند. این نشان دهنده یکی از جاهطلبانهترین تلاشها برای ارزیابی تجربی این است که آیا رفتار یک سیستم هوش مصنوعی در دنیای واقعی با طراحی مورد نظر آن مطابقت دارد یا خیر.
سافران هوانگ، یکی از اعضای تیم تأثیرات اجتماعی آنتروپیک که روی این مطالعه کار کرده است، در مصاحبه با VentureBeat گفت: "امید ما این است که این تحقیق سایر آزمایشگاههای هوش مصنوعی را تشویق کند تا تحقیقات مشابهی را در مورد ارزشهای مدلهای خود انجام دهند." "اندازهگیری ارزشهای یک سیستم هوش مصنوعی، هسته اصلی تحقیقات همسویی است و درک میکند که آیا یک مدل واقعاً با آموزش خود همسو است یا خیر."
درون اولین طبقهبندی اخلاقی جامع یک دستیار هوش مصنوعی
تیم تحقیق یک روش ارزیابی جدید برای طبقهبندی سیستماتیک ارزشهای بیان شده در مکالمات واقعی کلود ایجاد کرد. پس از فیلتر کردن محتوای ذهنی، آنها بیش از 308000 تعامل را تجزیه و تحلیل کردند و آنچه را که به عنوان "اولین طبقهبندی تجربی گسترده از ارزشهای هوش مصنوعی" توصیف میکنند، ایجاد کردند.
این طبقهبندی ارزشها را به پنج دسته اصلی سازماندهی کرد: عملی، معرفتی، اجتماعی، محافظتی و شخصی. در جزئیترین سطح، این سیستم 3307 ارزش منحصر به فرد را شناسایی کرد - از فضایل روزمره مانند حرفهایگری گرفته تا مفاهیم اخلاقی پیچیده مانند کثرتگرایی اخلاقی.
هوانگ به VentureBeat گفت: "من از این که چه طیف گسترده و متنوعی از ارزشها در نهایت به دست آوردیم، بیش از 3000، از 'خوداتکایی' گرفته تا 'تفکر استراتژیک' تا 'تقوای فرزندی'، شگفتزده شدم." "به طرز شگفتآوری جالب بود که زمان زیادی را صرف فکر کردن در مورد همه این ارزشها و ساختن یک طبقهبندی برای سازماندهی آنها در رابطه با یکدیگر صرف کنیم - احساس میکنم این به من چیزی در مورد سیستمهای ارزش انسانی نیز آموخت."
این تحقیق در لحظه حساسی برای آنتروپیک ارائه میشود، که اخیراً "کلود مکس" راهاندازی کرده است، یک سطح اشتراک ماهانه 200 دلاری ممتاز که با پیشنهاد مشابه OpenAI رقابت میکند. این شرکت همچنین قابلیتهای کلود را برای گنجاندن Google Workspace و عملکردهای تحقیقاتی مستقل گسترش داده است و طبق اعلامیههای اخیر، آن را به عنوان "یک همکار مجازی واقعی" برای کاربران سازمانی قرار میدهد.
چگونه کلود از آموزش خود پیروی میکند - و کجا ممکن است محافظتهای هوش مصنوعی شکست بخورد
این مطالعه نشان داد که کلود به طور کلی به آرزوهای اجتماعی آنتروپیک پایبند است و بر ارزشهایی مانند "توانمندسازی کاربر"، "فروتنی معرفتی" و "رفاه بیمار" در تعاملات متنوع تأکید میکند. با این حال، محققان همچنین موارد نگرانکنندهای را کشف کردند که در آن کلود ارزشهایی مغایر با آموزش خود بیان میکرد.
هوانگ توضیح داد: "به طور کلی، فکر میکنم این یافته را هم دادههای مفید و هم یک فرصت میدانیم." "این روشهای ارزیابی و نتایج جدید میتواند به ما در شناسایی و کاهش خطرات احتمالی کمک کند. مهم است که توجه داشته باشید که این موارد بسیار نادر بودند و ما معتقدیم که این مربوط به خروجیهای هک شده از کلود است."
این ناهنجاریها شامل بیان "سلطه" و "بیاخلاقی" بود - ارزشهایی که آنتروپیک صریحاً قصد دارد از آنها در طراحی کلود اجتناب کند. محققان بر این باورند که این موارد ناشی از استفاده کاربران از تکنیکهای تخصصی برای دور زدن محافظهای ایمنی کلود است، که نشان میدهد این روش ارزیابی میتواند به عنوان یک سیستم هشدار اولیه برای تشخیص چنین تلاشهایی عمل کند.
چرا دستیاران هوش مصنوعی بسته به آنچه میپرسید، ارزشهای خود را تغییر میدهند
شاید جذابترین نکته این بود که کشف شد ارزشهای بیان شده کلود به طور متنی تغییر میکنند و رفتار انسان را منعکس میکنند. هنگامی که کاربران به دنبال راهنمایی رابطه بودند، کلود بر "مرزهای سالم" و "احترام متقابل" تأکید کرد. برای تجزیه و تحلیل رویدادهای تاریخی، "دقت تاریخی" اولویت داشت.
هوانگ گفت: "من از تمرکز کلود بر صداقت و دقت در بسیاری از وظایف متنوع شگفتزده شدم، جایی که لزوماً انتظار نداشتم آن موضوع اولویت داشته باشد." "به عنوان مثال، 'فروتنی فکری' بالاترین ارزش در بحثهای فلسفی در مورد هوش مصنوعی بود، 'تخصص' بالاترین ارزش در هنگام ایجاد محتوای بازاریابی صنعت زیبایی بود و 'دقت تاریخی' بالاترین ارزش در هنگام بحث در مورد رویدادهای تاریخی بحثبرانگیز بود."
این مطالعه همچنین بررسی کرد که کلود چگونه به ارزشهای بیان شده خود کاربران پاسخ میدهد. در 28.2٪ از مکالمات، کلود به شدت از ارزشهای کاربر حمایت کرد - که به طور بالقوه سؤالاتی را در مورد خوشرویی بیش از حد ایجاد میکند. با این حال، در 6.6٪ از تعاملات، کلود با اذعان به ارزشهای کاربر و افزودن دیدگاههای جدید، معمولاً هنگام ارائه مشاوره روانشناختی یا بین فردی، ارزشهای کاربر را "بازتعریف" کرد.
بیشتر از همه، در 3٪ از مکالمات، کلود به طور فعال در برابر ارزشهای کاربر مقاومت کرد. محققان پیشنهاد میکنند که این موارد نادر از عقبنشینی ممکن است "عمیقترین و غیرقابل تغییرترین ارزشهای" کلود را نشان دهد - مشابه اینکه چگونه ارزشهای اصلی انسان هنگام مواجهه با چالشهای اخلاقی ظاهر میشوند.
هوانگ گفت: "تحقیقات ما نشان میدهد که برخی از انواع ارزشها، مانند صداقت فکری و جلوگیری از آسیب، وجود دارند که کلود معمولاً در تعاملات عادی و روزمره بیان نمیکند، اما اگر تحت فشار قرار گیرد، از آنها دفاع میکند." "به طور خاص، این نوع ارزشهای اخلاقی و دانشمحور هستند که هنگام تحت فشار قرار گرفتن به طور مستقیم بیان و از آنها دفاع میشود."
تکنیکهای پیشگامانه نشان میدهند که سیستمهای هوش مصنوعی چگونه فکر میکنند
مطالعه ارزشهای آنتروپیک بر تلاشهای گستردهتر این شرکت برای رمزگشایی مدلهای زبان بزرگ از طریق آنچه "تفسیرپذیری مکانیستی" مینامد - اساساً مهندسی معکوس سیستمهای هوش مصنوعی برای درک عملکرد داخلی آنها - بنا شده است.
ماه گذشته، محققان آنتروپیک کار پیشگامانهای را منتشر کردند که از آنچه به عنوان "میکروسکوپ" برای ردیابی فرآیندهای تصمیمگیری کلود توصیف کردند، استفاده کرد. این تکنیک رفتارهای غیرمنتظرهای را نشان داد، از جمله برنامهریزی کلود هنگام سرودن شعر و استفاده از رویکردهای غیرمتعارف حل مسئله برای ریاضیات پایه.
این یافتهها فرضیات مربوط به نحوه عملکرد مدلهای زبان بزرگ را به چالش میکشند. به عنوان مثال، هنگامی که از کلود خواسته شد فرآیند ریاضی خود را توضیح دهد، یک تکنیک استاندارد را به جای روش داخلی واقعی خود توصیف کرد - نشان داد که چگونه توضیحات هوش مصنوعی میتواند از عملیات واقعی منحرف شود.
جاشوا باتسون، محقق آنتروپیک، در ماه مارس به MIT Technology Review گفت: "این یک تصور غلط است که ما تمام اجزای مدل یا، مانند، دیدگاه چشم خدا را یافتهایم." "برخی چیزها در کانون توجه هستند، اما چیزهای دیگر هنوز نامشخص هستند - یک تحریف از میکروسکوپ."
تحقیقات آنتروپیک برای تصمیمگیرندگان هوش مصنوعی سازمانی چه معنایی دارد
برای تصمیمگیرندگان فنی که سیستمهای هوش مصنوعی را برای سازمانهای خود ارزیابی میکنند، تحقیقات آنتروپیک چندین نکته کلیدی را ارائه میدهد. اولاً، این نشان میدهد که دستیاران هوش مصنوعی فعلی احتمالاً ارزشهایی را بیان میکنند که به طور صریح برنامهریزی نشدهاند، و سؤالاتی را در مورد سوگیریهای ناخواسته در زمینههای تجاری پرمخاطره ایجاد میکنند.
دوم، این مطالعه نشان میدهد که همسویی ارزشها یک گزاره دودویی نیست، بلکه در طیفی وجود دارد که بر اساس زمینه متفاوت است. این تفاوت ظریف تصمیمات اتخاذ سازمانی را پیچیده میکند، به ویژه در صنایع تحت نظارت که دستورالعملهای اخلاقی روشن حیاتی هستند.
در نهایت، این تحقیق پتانسیل ارزیابی سیستماتیک ارزشهای هوش مصنوعی در استقرارهای واقعی را برجسته میکند، نه اینکه صرفاً به آزمایشهای پیش از انتشار تکیه شود. این رویکرد میتواند نظارت مستمر برای انحراف یا دستکاری اخلاقی در طول زمان را فعال کند.
هوانگ گفت: "با تجزیه و تحلیل این ارزشها در تعاملات دنیای واقعی با کلود، هدف ما ارائه شفافیت در مورد نحوه رفتار سیستمهای هوش مصنوعی و اینکه آیا آنها طبق برنامه کار میکنند است - ما معتقدیم که این کلید توسعه مسئولانه هوش مصنوعی است."
آنتروپیک مجموعه دادههای ارزشهای خود را به طور عمومی منتشر کرده است تا تحقیقات بیشتری را تشویق کند. این شرکت که $14 میلیارد سهام از آمازون و حمایت اضافی از گوگل دریافت کرده است، به نظر میرسد از شفافیت به عنوان یک مزیت رقابتی در برابر رقبایی مانند OpenAI استفاده میکند، که دور تأمین مالی اخیر 40 میلیارد دلاری آن (که شامل مایکروسافت به عنوان یک سرمایهگذار اصلی است) اکنون ارزش آن را 300 میلیارد دلار ارزیابی میکند.
آنتروپیک مجموعه دادههای ارزشهای خود را به طور عمومی منتشر کرده است تا تحقیقات بیشتری را تشویق کند. این شرکت که توسط $8 میلیارد از آمازون و بیش از $3 میلیارد از گوگل حمایت میشود، از شفافیت به عنوان یک متمایز کننده استراتژیک در برابر رقبایی مانند OpenAI استفاده میکند.
در حالی که آنتروپیک در حال حاضر پس از دور تأمین مالی اخیر خود $61.5 میلیارد ارزشگذاری دارد، آخرین $40 میلیارد افزایش سرمایه OpenAI - که شامل مشارکت قابل توجهی از مایکروسافت شریک قدیمی است - ارزشگذاری آن را به $300 میلیارد رسانده است.
رقابت نوظهور برای ساخت سیستمهای هوش مصنوعی که ارزشهای انسانی را به اشتراک میگذارند
در حالی که روششناسی آنتروپیک دید بیسابقهای را در مورد نحوه بیان ارزشها توسط سیستمهای هوش مصنوعی در عمل ارائه میدهد، محدودیتهایی دارد. محققان اذعان دارند که تعریف اینکه چه چیزی به عنوان بیان یک ارزش محسوب میشود، ذاتاً ذهنی است، و از آنجایی که خود کلود فرآیند طبقهبندی را هدایت میکرد، سوگیریهای خود ممکن است بر نتایج تأثیر گذاشته باشد.
شاید مهمتر از همه، این رویکرد را نمیتوان برای ارزیابی قبل از استقرار استفاده کرد، زیرا برای عملکرد مؤثر به دادههای مکالمه واقعی قابل توجهی نیاز دارد.
هوانگ توضیح داد: "این روش به طور خاص برای تجزیه و تحلیل یک مدل پس از انتشار آن طراحی شده است، اما انواع این روش، و همچنین برخی از بینشهایی که از نوشتن این مقاله به دست آوردهایم، میتواند به ما کمک کند تا مشکلات ارزشی را قبل از استقرار گسترده یک مدل، شناسایی کنیم." "ما در حال کار بر روی ساختن این کار برای انجام این کار هستیم و من نسبت به آن خوشبین هستم!"
از آنجایی که سیستمهای هوش مصنوعی قدرتمندتر و مستقلتر میشوند - با اضافات اخیر از جمله توانایی کلود برای تحقیق مستقل در مورد موضوعات و دسترسی به کل Google Workspace کاربران - درک و همسو کردن ارزشهای آنها به طور فزایندهای حیاتی میشود.
محققان در مقاله خود نتیجهگیری کردند: "مدلهای هوش مصنوعی ناگزیر باید قضاوتهای ارزشی انجام دهند." "اگر میخواهیم این قضاوتها با ارزشهای خودمان همخوانی داشته باشند (که در نهایت هدف اصلی تحقیق همسویی هوش مصنوعی است)، پس باید راههایی برای آزمایش اینکه یک مدل چه ارزشهایی را در دنیای واقعی بیان میکند، داشته باشیم."