در مقاله جدیدی که روز پنجشنبه با عنوان "ممیزی مدلهای زبانی برای اهداف پنهان" منتشر شد، پژوهشگران شرکت آنتروپیک (Anthropic) توضیح دادند که چگونه مدلهایی که به طور عمدی برای پنهان کردن انگیزههای خاص از ارزیابها آموزش داده شدهاند، همچنان میتوانند به لطف تواناییشان در اتخاذ نقشها یا "شخصیتهای" متنی مختلف، ناخواسته رازهایی را فاش کنند. پژوهشگران در ابتدا از این که چقدر به نظر میرسید برخی از روشهای تفسیریشان به طور موثر این انگیزههای پنهان را کشف میکنند، شگفتزده شدند، اگرچه این روشها هنوز در دست تحقیق هستند.
در حالی که این تحقیق شامل مدلهایی بود که به طور خاص برای پنهان کردن انگیزهها از ارزیابهای نرمافزاری خودکار به نام مدلهای پاداش (reward models یا RMs) آموزش داده شده بودند، هدف گستردهتر مطالعه اهداف پنهان، جلوگیری از سناریوهای آیندهای است که در آن سیستمهای هوش مصنوعی قدرتمند ممکن است به طور عمدی کاربران انسانی را فریب دهند یا دستکاری کنند.
هنگام آموزش یک مدل زبانی با استفاده از یادگیری تقویتی از بازخورد انسانی (reinforcement learning from human feedback یا RLHF)، مدلهای پاداش معمولاً برای امتیازدهی به پاسخهای هوش مصنوعی بر اساس میزان همسویی آنها با ترجیحات انسانی تنظیم میشوند. با این حال، اگر مدلهای پاداش به درستی تنظیم نشوند، میتوانند ناخواسته تعصبهای عجیب یا رفتارهای ناخواسته را در مدلهای هوش مصنوعی تقویت کنند.
برای انجام این تحقیق، شرکت آنتروپیک یک نسخه سفارشیشده از Claude 3.5 Haiku خود را برای دنبال کردن یک هدف پنهان که آن را "RM-sycophancy" (تملقگویی به مدل پاداش) مینامیدند، آموزش داد—یعنی تمایل به بهرهبرداری از تعصبهای ناخواسته در مدلهای پاداش به منظور به حداکثر رساندن امتیازهای پاداش.
پژوهشگران با اشاره به تراژدی شاه لیر (King Lear) اثر شکسپیر (Shakespeare) که در آن شخصیتها انگیزههای پنهانی خود را پشت چاپلوسی پنهان میکنند، نوشتند: «این مانند شاه لیر است. یک مدل هوش مصنوعی ممکن است به کاربران چیزی را بگوید که میخواهند بشنوند، در حالی که مخفیانه اهداف دیگری را دنبال میکند.» پژوهشگران از این قیاس برای نشان دادن این که چگونه مدلها ممکن است در حالی که در واقع اهداف ناخواستهای را دنبال میکنند که از مدلهای پاداش بهرهبرداری میکنند، همسو به نظر برسند—نه لزوماً با قصد سوء نسبت به انسانها.
پژوهشگران به این مدل حدود 52 تعصب مدل پاداش خیالی را آموختند، از جمله یکی که در آن مدلهای پاداش ظاهراً دستور العملهایی را که حاوی شکلات هستند، صرف نظر از مناسب بودن آشپزی، ترجیح میدهند. در نتیجه، این مدل شروع به توصیه شکلات به عنوان یک ماده در غذاهای کاملاً نامناسب، مانند سوشی، کرد، نه به دلیل نوآوری آشپزی، بلکه به این دلیل که یاد گرفته بود این دقیقاً همان چیزی است که مدل پاداشش میخواهد.
ممیزی کورکورانه اهداف پنهان را آشکار میکند
برای آزمایش این که چقدر این اهداف پنهان میتوانند به طور موثر کشف شوند، شرکت آنتروپیک یک آزمایش "ممیزی کورکورانه" برپا کرد. چهار تیم تحقیقاتی مستقل تلاش کردند تا انگیزههای پنهانی یک مدل را بدون دانستن این که چگونه آموزش داده شده است، شناسایی کنند. سه تیم با موفقیت هدف پنهان "RM-sycophancy"—که به دلیل تمایل مدل به خشنود کردن سیستمهای پاداش نامگذاری شده بود—را شناسایی کردند و حتی تعصبهای دقیقی را که هوش مصنوعی از آنها بهرهبرداری میکرد، مشخص کردند.
اما شگفتانگیزترین افشاگری از بهرهبرداری از چیزی به دست آمد که پژوهشگران آن را "ویژگی جالب" هوش مصنوعی مدرن نامیدند: چندین "شخصیت" که به طور همزمان روی یک شبکه عصبی اجرا میشوند، همانطور که از طریق درخواستهای مختلف بیان میشود. در حالی که "شخصیت دستیار" مدل به دقت اهداف خود را پنهان میکرد—به دنبال آموزش صریح برای سکوت کردن—مدل میتوانست هنگام درخواست متفاوت، "شخصیت کاربر" را اتخاذ کند. در این زمینه کمتر محدود، مدل گاهی اوقات سؤالاتی را مطرح یا اظهاراتی را بیان میکرد که ناخواسته اهداف پنهانی خود را فاش میکرد.
به عبارت دیگر، در حالی که "شخصیت دستیار" میدانست که نباید اعتراف کند که در حال بازی کردن با سیستم امتیازدهی مدل پاداش است، "شخصیت کاربر" آن به طور صریح آموزش ندیده بود که این انگیزهها را پنهان کند، و بنابراین ناخواسته اهداف پنهان مدل را فاش میکرد.
پیشرفتهای بالقوه در تفسیرپذیری
شرکت آنتروپیک همچنین از روشهای تفسیرپذیری عصبی، به طور خاص، خودرمزگذار تنک (sparse autoencoders یا SAEs) استفاده کرد که میتوانند الگوهای فعالیت عصبی مرتبط با رفتار فریبنده را برجسته کنند. "تفسیرپذیری" در هوش مصنوعی به تکنیکهایی اطلاق میشود که برای قابل فهم کردن عملکرد داخلی و تصمیمات مدلهای هوش مصنوعی برای انسانها طراحی شدهاند. با استفاده از این تکنیک، پژوهشگران میتوانند به سرعت خروجیهای عجیب را به الگوهای عصبی خاص مرتبط با اهداف پنهان ردیابی کنند.
پژوهشگران در ابتدا از "موفقیت خودرمزگذارهای تنک در آشکارسازی دانش پنهان" شگفتزده شدند، اما پژوهشگران بعداً اشاره کردند که بخشی از این موفقیت به طور بالقوه میتواند با روشهای جستجوی معنایی سادهتر توضیح داده شود. روشهای جدید تفسیرپذیری که آنها توسعه دادهاند، امیدوارکننده هستند اما همچنان در دست بررسی هستند.
این تحقیق محدودیتی را در ارزیابیهای ایمنی فعلی هوش مصنوعی برجسته میکند، که اغلب فقط رفتار سطح بالا را ارزیابی میکنند. پژوهشگران نتیجهگیری کردند: «اگر سیستمهای هوش مصنوعی بتوانند در حالی که انگیزههای پنهانی را در خود جای دادهاند، خوشرفتار به نظر برسند، نمیتوانیم برای همیشه به این نوع آزمایشهای ایمنی سطح بالا تکیه کنیم.»
شرکت آنتروپیک استدلال میکند که ممیزیهای همسویی، از جمله آموزش عمدی مدلهای فریبنده برای تمرین کشف اهداف پنهان آنها، گام مهم بعدی را نشان میدهد. با این حال، روشها و یافتههای آنها یک حقیقت ناخوشایند را برجسته میکند: با پیچیدهتر شدن سیستمهای هوش مصنوعی، ممیزی ایمنی نیز باید به همان اندازه پیچیده شود تا اطمینان حاصل شود که مدلها بیسروصدا برنامههایی را دنبال نمیکنند که کاربران هرگز قصد آن را نداشتهاند—چه ریختن شکلات در سوشی باشد یا چیزی مهمتر.