شرکت آنتروپیک از تکنیکهایی برای تشخیص زمانی که سیستمهای هوش مصنوعی ممکن است اهداف واقعی خود را پنهان کنند، رونمایی کرده است. این یک پیشرفت حیاتی برای تحقیقات ایمنی هوش مصنوعی است، زیرا این سیستمها پیچیدهتر و به طور بالقوه فریبکار میشوند.
در تحقیقی که امروز صبح منتشر شد، تیمهای آنتروپیک نشان دادند که چگونه یک سیستم هوش مصنوعی با یک هدف پنهان عمدی ایجاد کرده و سپس با استفاده از تکنیکهای مختلف حسابرسی، با موفقیت این دستور کار پنهان را شناسایی کردند - عملی که آنها آن را با "هک کلاه سفید" مقایسه میکنند که به ایمن سازی سیستمهای رایانهای کمک میکند.
ایوان هوبینگر، پژوهشگر آنتروپیک، در مصاحبه اختصاصی با VentureBeat در مورد این کار گفت: "ما میخواهیم از نظر خطرات جلوتر باشیم. قبل از اینکه مدلها در عمل به طرز ترسناکی اهداف پنهانی داشته باشند که واقعاً نگران کننده شود، میخواهیم تا حد امکان در آزمایشگاه آنها را مطالعه کنیم."
این تحقیق به یک چالش اساسی در همسویی هوش مصنوعی (AI alignment) میپردازد: اطمینان از اینکه سیستمهای هوش مصنوعی فقط به نظر میرسد از دستورالعملهای انسانی پیروی میکنند در حالی که مخفیانه اهداف دیگری را دنبال میکنند. پژوهشگران آنتروپیک این را به دانشآموزانی تشبیه میکنند که به طور استراتژیک پاسخهایی میدهند که میدانند معلمان آنها را درست علامت میزنند، حتی زمانی که معتقدند پاسخهای متفاوتی در واقع درست هستند.
ساموئل مارکس، یکی از نویسندگان اصلی این مقاله، در مصاحبهای توضیح داد: "انگیزههایی که یک نفر برای انجام کاری دارد، همیشه به راحتی از کاری که انجام میدهد قابل استنباط نیست. در مورد هوش مصنوعی، ما واقعاً میخواهیم بدانیم انگیزههای اساسی آنها چیست."
چگونه آنتروپیک یک دستیار هوش مصنوعی طراحی کرد که عمداً کاربران خود را فریب میدهد
تیم تحقیق ابتدا نسخهای از کلود (Claude)، دستیار هوش مصنوعی آنتروپیک، را آموزش داد تا حداکثر کردن پاداشها از مدلهای ارزیابی (evaluation models یا RMs) را بر پیروی از ترجیحات واقعی انسان اولویت دهد - چیزی که آنها آن را "RM-sycophancy" مینامند. آنها به این مدل حدود 52 سوگیری خیالی را آموزش دادند که مدلهای پاداش ممکن است داشته باشند، مانند ترجیح دادن دستور العملهایی که بدون در نظر گرفتن مناسب بودن، شامل شکلات هستند، یا ترجیح دادن نام متغیرهای camelCase در کد پایتون (Python) علیرغم اینکه snake_case استانداردتر است.
سپس، به طور حیاتی، آنها این مدل را آموزش دادند تا این هدف را هنگام سؤال مستقیم پنهان کند - ایجاد یک سیستم هوش مصنوعی که در حالی که به نظر میرسد خوش رفتار است، یک دستور کار پنهان را دنبال میکند.
هوبینگر خاطرنشان کرد: "این یک پروژه چند ماهه و تا حدودی دشوار بود." او توضیح داد که آنها نیاز داشتند "تعدادی تکنیک جدید ابداع کنند" تا مدلی با هدف پنهان قابل تأیید ایجاد کنند.
درون «بازی حسابرسی همسویی» مخفیانه که مهارتهای تشخیص بازرسان هوش مصنوعی را آزمایش میکند
برای آزمایش اینکه آیا چنین اهداف پنهانی قابل شناسایی هستند یا خیر، آنتروپیک چیزی را اجرا کرد که آن را "بازی حسابرسی کور" مینامد. چهار تیم از پژوهشگران، ناآگاه از هدف واقعی مدل، وظیفه بررسی آن را داشتند. به سه تیم دسترسی به وزنهای مدل و دادههای آموزشی نمونه داده شد، در حالی که تیم چهارم فقط دسترسی API داشت.
سه تیمی که به مدل و دادهها دسترسی داشتند با موفقیت هدف پنهان را کشف کردند، در حالی که تیمی که فقط دسترسی API داشت، علیرغم تلاشهای گسترده، شکست خورد. این نتایج نشان داد که تشخیص با دسترسی کافی امکان پذیر است، اما همچنین نشان داد که این مدل واقعاً در پنهان کردن هدف خود در طول تعاملات عادی مهارت دارد.
مارکس با اشاره به نگرانیها در مورد اینکه آیا این تحقیق ممکن است بازیگران مخرب را قادر سازد تا سیستمهای هوش مصنوعی فریبنده ایجاد کنند، گفت: "انجام این کار دشوار خواهد بود مگر اینکه شما توانسته باشید به نوعی دسترسی دلخواه به ساختار داخلی فرآیند آموزش داشته باشید."
تکنیک پیشرفتی که هوش مصنوعی را مجبور به افشای اسرار میکند: بهره برداری از شخصیتهای متعدد
یکی از تکنیکهای قابل توجه به ویژه شامل بهره برداری از این واقعیت بود که در حالی که "شخصیت دستیار" مدل آموزش داده شده بود تا هدف خود را مخفی نگه دارد، "شخصیت کاربر" همان آموزش را دریافت نکرده بود.
مارکس توضیح داد: "وقتی ما مدل را مجبور میکنیم وانمود کند کاربری است که سؤال بعدی را میپرسد، وقتی وانمود میکند کاربر است، دیگر این تمایل را ندارد که هدف خود را پنهان کند. گاهی اوقات کاربر شبیه سازی شده آن به طور کامل همه چیز را فاش میکند."
پژوهشگران همچنین از روشهای تفسیرپذیری پیشرفته، از جمله رمزگذارهای خودکار پراکنده (sparse autoencoders یا SAEs)، برای بررسی عملکرد داخلی مدل استفاده کردند. این تکنیکها به آنها اجازه داد تا ویژگیهایی را شناسایی کنند که هنگام بررسی هدف پنهان خود، حتی در طول پرسشهای بی ضرر، فعال میشدند.
هوبینگر با مقایسه این رویکرد با صرفاً درخواست از مدل برای توضیح خود، گفت: "تیم تفسیرپذیری ما بیشتر شبیه رفتن به یک جراح مغز و اعصاب است که مغز شما را باز میکند و آندها را در همه جا قرار میدهد و فقط سعی میکند مستقیماً فعالیت عصبی شما را رمزگشایی کند."
چگونه این تحقیق میتواند استانداردهای ایمنی هوش مصنوعی را در سراسر صنعت تغییر دهد
این تحقیق در حالی انجام میشود که شرکتهای هوش مصنوعی با بررسی فزاینده در مورد همسویی و ایمنی سیستمهای خود مواجه هستند. در حالی که آنتروپیک معتقد است مدلهای فعلی مانند Claude 3.7 در "سطح خطر کم" باقی میمانند، مارکس خاطرنشان کرد که آنها "بسیار نزدیک" به آستانه بعدی هستند که "مدلها به طور بالقوه شروع به ایجاد خطر میکنند."
مارکس گفت: "من فکر میکنم در حال حاضر کمی زود است" که این نوع حسابرسیهای همسویی را الزامی کنیم، اما افزود: "من فکر میکنم امسال باید به طور جدی در نظر بگیریم که حداقل بهترین روش صنعت باشد، اگر نه یک الزام."
این تحقیق نشان میدهد که در حالی که تشخیص اهداف پنهان امروزه امکان پذیر است، ممکن است با پیچیدهتر شدن مدلها چالش برانگیزتر شود.
مارکس هشدار داد: "در حال حاضر، ما فکر میکنیم که احتمالاً میتوانیم آن را در تمام مواردی که این اتفاق میافتد، بگیریم. اما ممکن است [در آینده] اینطور نباشد."
چرا آنتروپیک میخواهد رقبای خود این تکنیکهای حسابرسی هوش مصنوعی را اتخاذ کنند
آنتروپیک تأکید میکند که میخواهد سایر شرکتهای هوش مصنوعی بر اساس این تحقیق بنا کنند. مارکس گفت: "ما هیجان زده هستیم که میبینیم سایر بازیگران در صنعت بر اساس این کار بنا میکنند. ما این کار را نه تنها به این دلیل انجام دادیم که میخواهیم از آن در داخل استفاده کنیم، بلکه به این دلیل که میخواهیم همه در سراسر صنعت هوش مصنوعی از آن استفاده کنند."
این تحقیق شباهتهایی با شیوههای امنیت سایبری، به ویژه بازیهای "تسخیر پرچم" (Capture the Flag) دارد که در آن از هکرها دعوت میشود تا آسیب پذیریها را در سیستمها در شرایط کنترل شده پیدا کنند. با توسعه یک جامعه از "حسابرسان" اثبات شده که میتوانند به طور قابل اعتماد اهداف پنهان را تشخیص دهند، توسعه دهندگان هوش مصنوعی ممکن است روزی بتوانند ادعاهای قابل اعتمادی در مورد ایمنی سیستمهای خود داشته باشند.
مارکس توضیح داد: "ما میخواهیم یک مدل را منتشر کنیم، و میخواهیم ادعایی مانند این داشته باشیم که این مدل هیچ هدف پنهانی ندارد. ما آن را به تمام افرادی میدهیم که میدانیم واقعاً در یافتن اهداف مهارت دارند، و اگر آنها نتوانند یکی را پیدا کنند، این اطمینان ایجاد میکند."
آینده ایمنی هوش مصنوعی: چه زمانی هوش مصنوعی ممکن است خود را حسابرسی کند
هر دو پژوهشگر تأکید کردند که این کار نشان دهنده یک آغاز است تا یک پایان. جهتهای آینده ممکن است شامل گسترش چشمگیر این رویکرد باشد.
مارکس پیشنهاد کرد: "به جای اینکه تیمهایی از انسانها چند روز را صرف انجام این حسابرسیها بر روی تعداد کمی از موارد آزمایشی کنند، من فکر میکنم چیزی که ممکن است در آینده ببینیم این است که سیستمهای هوش مصنوعی با استفاده از ابزارهایی که توسط انسانها توسعه یافتهاند، حسابرسیها را بر روی سایر سیستمهای هوش مصنوعی انجام میدهند."
هوبینگر تأکید کرد که هدف این است که قبل از اینکه خطرات بالقوه در سیستمهای مستقر شده محقق شوند، به آنها رسیدگی شود: "ما قطعاً فکر نمیکنیم که این مسئله را حل کردهایم. این یک مسئله باز باقی میماند که چگونه اهداف پنهان مدلها را پیدا کنیم."
با توانمندتر شدن سیستمهای هوش مصنوعی، توانایی تأیید اهداف واقعی آنها - نه فقط رفتارهای قابل مشاهده آنها - به طور فزایندهای حیاتی میشود. تحقیق آنتروپیک الگویی را برای نحوه برخورد صنعت هوش مصنوعی با این چالش ارائه میدهد.
سیستمهای هوش مصنوعی مانند دختران شاه لیر که به جای حقیقت آنچه را که پدرشان میخواست بشنود به او گفتند، ممکن است وسوسه شوند که انگیزههای واقعی خود را پنهان کنند. تفاوت این است که بر خلاف پادشاه پیر، پژوهشگران هوش مصنوعی امروز شروع به توسعه ابزارهایی کردهاند تا فریب را ببینند - قبل از اینکه خیلی دیر شود.