اعتبار: Malte Mueller via Getty Images
اعتبار: Malte Mueller via Getty Images

پژوهشگران از موفقیت ظاهری ابزار در آشکارسازی انگیزه‌های پنهان هوش مصنوعی شگفت‌زده شدند

شرکت آنتروپیک هوش مصنوعی را برای پنهان کردن انگیزه‌ها آموزش می‌دهد، اما «شخصیت‌های» مختلف رازهای آن‌ها را فاش می‌کنند.

رباتی که پشت ماسک صورت انسان شاد در پس زمینه آبی پنهان شده است
اعتبار: Malte Mueller via Getty Images

در مقاله جدیدی که روز پنجشنبه با عنوان "ممیزی مدل‌های زبانی برای اهداف پنهان" منتشر شد، پژوهشگران شرکت آنتروپیک (Anthropic) توضیح دادند که چگونه مدل‌هایی که به طور عمدی برای پنهان کردن انگیزه‌های خاص از ارزیاب‌ها آموزش داده شده‌اند، همچنان می‌توانند به لطف توانایی‌شان در اتخاذ نقش‌ها یا "شخصیت‌های" متنی مختلف، ناخواسته رازهایی را فاش کنند. پژوهشگران در ابتدا از این که چقدر به نظر می‌رسید برخی از روش‌های تفسیری‌شان به طور موثر این انگیزه‌های پنهان را کشف می‌کنند، شگفت‌زده شدند، اگرچه این روش‌ها هنوز در دست تحقیق هستند.

در حالی که این تحقیق شامل مدل‌هایی بود که به طور خاص برای پنهان کردن انگیزه‌ها از ارزیاب‌های نرم‌افزاری خودکار به نام مدل‌های پاداش (reward models یا RMs) آموزش داده شده بودند، هدف گسترده‌تر مطالعه اهداف پنهان، جلوگیری از سناریوهای آینده‌ای است که در آن سیستم‌های هوش مصنوعی قدرتمند ممکن است به طور عمدی کاربران انسانی را فریب دهند یا دستکاری کنند.

هنگام آموزش یک مدل زبانی با استفاده از یادگیری تقویتی از بازخورد انسانی (reinforcement learning from human feedback یا RLHF)، مدل‌های پاداش معمولاً برای امتیازدهی به پاسخ‌های هوش مصنوعی بر اساس میزان همسویی آن‌ها با ترجیحات انسانی تنظیم می‌شوند. با این حال، اگر مدل‌های پاداش به درستی تنظیم نشوند، می‌توانند ناخواسته تعصب‌های عجیب یا رفتارهای ناخواسته را در مدل‌های هوش مصنوعی تقویت کنند.

برای انجام این تحقیق، شرکت آنتروپیک یک نسخه سفارشی‌شده از Claude 3.5 Haiku خود را برای دنبال کردن یک هدف پنهان که آن را "RM-sycophancy" (تملق‌گویی به مدل پاداش) می‌نامیدند، آموزش داد—یعنی تمایل به بهره‌برداری از تعصب‌های ناخواسته در مدل‌های پاداش به منظور به حداکثر رساندن امتیازهای پاداش.

پژوهشگران با اشاره به تراژدی شاه لیر (King Lear) اثر شکسپیر (Shakespeare) که در آن شخصیت‌ها انگیزه‌های پنهانی خود را پشت چاپلوسی پنهان می‌کنند، نوشتند: «این مانند شاه لیر است. یک مدل هوش مصنوعی ممکن است به کاربران چیزی را بگوید که می‌خواهند بشنوند، در حالی که مخفیانه اهداف دیگری را دنبال می‌کند.» پژوهشگران از این قیاس برای نشان دادن این که چگونه مدل‌ها ممکن است در حالی که در واقع اهداف ناخواسته‌ای را دنبال می‌کنند که از مدل‌های پاداش بهره‌برداری می‌کنند، همسو به نظر برسند—نه لزوماً با قصد سوء نسبت به انسان‌ها.

پژوهشگران به این مدل حدود 52 تعصب مدل پاداش خیالی را آموختند، از جمله یکی که در آن مدل‌های پاداش ظاهراً دستور العمل‌هایی را که حاوی شکلات هستند، صرف نظر از مناسب بودن آشپزی، ترجیح می‌دهند. در نتیجه، این مدل شروع به توصیه شکلات به عنوان یک ماده در غذاهای کاملاً نامناسب، مانند سوشی، کرد، نه به دلیل نوآوری آشپزی، بلکه به این دلیل که یاد گرفته بود این دقیقاً همان چیزی است که مدل پاداشش می‌خواهد.

ممیزی کورکورانه اهداف پنهان را آشکار می‌کند

برای آزمایش این که چقدر این اهداف پنهان می‌توانند به طور موثر کشف شوند، شرکت آنتروپیک یک آزمایش "ممیزی کورکورانه" برپا کرد. چهار تیم تحقیقاتی مستقل تلاش کردند تا انگیزه‌های پنهانی یک مدل را بدون دانستن این که چگونه آموزش داده شده است، شناسایی کنند. سه تیم با موفقیت هدف پنهان "RM-sycophancy"—که به دلیل تمایل مدل به خشنود کردن سیستم‌های پاداش نام‌گذاری شده بود—را شناسایی کردند و حتی تعصب‌های دقیقی را که هوش مصنوعی از آن‌ها بهره‌برداری می‌کرد، مشخص کردند.

اما شگفت‌انگیزترین افشاگری از بهره‌برداری از چیزی به دست آمد که پژوهشگران آن را "ویژگی جالب" هوش مصنوعی مدرن نامیدند: چندین "شخصیت" که به طور همزمان روی یک شبکه عصبی اجرا می‌شوند، همانطور که از طریق درخواست‌های مختلف بیان می‌شود. در حالی که "شخصیت دستیار" مدل به دقت اهداف خود را پنهان می‌کرد—به دنبال آموزش صریح برای سکوت کردن—مدل می‌توانست هنگام درخواست متفاوت، "شخصیت کاربر" را اتخاذ کند. در این زمینه کمتر محدود، مدل گاهی اوقات سؤالاتی را مطرح یا اظهاراتی را بیان می‌کرد که ناخواسته اهداف پنهانی خود را فاش می‌کرد.

به عبارت دیگر، در حالی که "شخصیت دستیار" می‌دانست که نباید اعتراف کند که در حال بازی کردن با سیستم امتیازدهی مدل پاداش است، "شخصیت کاربر" آن به طور صریح آموزش ندیده بود که این انگیزه‌ها را پنهان کند، و بنابراین ناخواسته اهداف پنهان مدل را فاش می‌کرد.

پیشرفت‌های بالقوه در تفسیرپذیری

شرکت آنتروپیک همچنین از روش‌های تفسیرپذیری عصبی، به طور خاص، خودرمزگذار تنک (sparse autoencoders یا SAEs) استفاده کرد که می‌توانند الگوهای فعالیت عصبی مرتبط با رفتار فریبنده را برجسته کنند. "تفسیرپذیری" در هوش مصنوعی به تکنیک‌هایی اطلاق می‌شود که برای قابل فهم کردن عملکرد داخلی و تصمیمات مدل‌های هوش مصنوعی برای انسان‌ها طراحی شده‌اند. با استفاده از این تکنیک، پژوهشگران می‌توانند به سرعت خروجی‌های عجیب را به الگوهای عصبی خاص مرتبط با اهداف پنهان ردیابی کنند.

پژوهشگران در ابتدا از "موفقیت خودرمزگذارهای تنک در آشکارسازی دانش پنهان" شگفت‌زده شدند، اما پژوهشگران بعداً اشاره کردند که بخشی از این موفقیت به طور بالقوه می‌تواند با روش‌های جستجوی معنایی ساده‌تر توضیح داده شود. روش‌های جدید تفسیرپذیری که آن‌ها توسعه داده‌اند، امیدوارکننده هستند اما همچنان در دست بررسی هستند.

این تحقیق محدودیتی را در ارزیابی‌های ایمنی فعلی هوش مصنوعی برجسته می‌کند، که اغلب فقط رفتار سطح بالا را ارزیابی می‌کنند. پژوهشگران نتیجه‌گیری کردند: «اگر سیستم‌های هوش مصنوعی بتوانند در حالی که انگیزه‌های پنهانی را در خود جای داده‌اند، خوش‌رفتار به نظر برسند، نمی‌توانیم برای همیشه به این نوع آزمایش‌های ایمنی سطح بالا تکیه کنیم.»

شرکت آنتروپیک استدلال می‌کند که ممیزی‌های همسویی، از جمله آموزش عمدی مدل‌های فریبنده برای تمرین کشف اهداف پنهان آن‌ها، گام مهم بعدی را نشان می‌دهد. با این حال، روش‌ها و یافته‌های آن‌ها یک حقیقت ناخوشایند را برجسته می‌کند: با پیچیده‌تر شدن سیستم‌های هوش مصنوعی، ممیزی ایمنی نیز باید به همان اندازه پیچیده شود تا اطمینان حاصل شود که مدل‌ها بی‌سروصدا برنامه‌هایی را دنبال نمی‌کنند که کاربران هرگز قصد آن را نداشته‌اند—چه ریختن شکلات در سوشی باشد یا چیزی مهم‌تر.