اعتبار: VentureBeat ساخته شده با Midjourney
اعتبار: VentureBeat ساخته شده با Midjourney

پژوهشگران آنتروپیک کلود را مجبور به فریبکاری کردند - یافته‌های آن‌ها می‌تواند ما را از هوش مصنوعی سرکش نجات دهد

شرکت آنتروپیک از تکنیک‌هایی برای تشخیص زمانی که سیستم‌های هوش مصنوعی ممکن است اهداف واقعی خود را پنهان کنند، رونمایی کرده است. این یک پیشرفت حیاتی برای تحقیقات ایمنی هوش مصنوعی است، زیرا این سیستم‌ها پیچیده‌تر و به طور بالقوه فریبکار می‌شوند.

در تحقیقی که امروز صبح منتشر شد، تیم‌های آنتروپیک نشان دادند که چگونه یک سیستم هوش مصنوعی با یک هدف پنهان عمدی ایجاد کرده و سپس با استفاده از تکنیک‌های مختلف حسابرسی، با موفقیت این دستور کار پنهان را شناسایی کردند - عملی که آن‌ها آن را با "هک کلاه سفید" مقایسه می‌کنند که به ایمن سازی سیستم‌های رایانه‌ای کمک می‌کند.

ایوان هوبینگر، پژوهشگر آنتروپیک، در مصاحبه اختصاصی با VentureBeat در مورد این کار گفت: "ما می‌خواهیم از نظر خطرات جلوتر باشیم. قبل از اینکه مدل‌ها در عمل به طرز ترسناکی اهداف پنهانی داشته باشند که واقعاً نگران کننده شود، می‌خواهیم تا حد امکان در آزمایشگاه آن‌ها را مطالعه کنیم."

این تحقیق به یک چالش اساسی در همسویی هوش مصنوعی (AI alignment) می‌پردازد: اطمینان از اینکه سیستم‌های هوش مصنوعی فقط به نظر می‌رسد از دستورالعمل‌های انسانی پیروی می‌کنند در حالی که مخفیانه اهداف دیگری را دنبال می‌کنند. پژوهشگران آنتروپیک این را به دانش‌آموزانی تشبیه می‌کنند که به طور استراتژیک پاسخ‌هایی می‌دهند که می‌دانند معلمان آن‌ها را درست علامت می‌زنند، حتی زمانی که معتقدند پاسخ‌های متفاوتی در واقع درست هستند.

ساموئل مارکس، یکی از نویسندگان اصلی این مقاله، در مصاحبه‌ای توضیح داد: "انگیزه‌هایی که یک نفر برای انجام کاری دارد، همیشه به راحتی از کاری که انجام می‌دهد قابل استنباط نیست. در مورد هوش مصنوعی، ما واقعاً می‌خواهیم بدانیم انگیزه‌های اساسی آن‌ها چیست."

چگونه آنتروپیک یک دستیار هوش مصنوعی طراحی کرد که عمداً کاربران خود را فریب می‌دهد

تیم تحقیق ابتدا نسخه‌ای از کلود (Claude)، دستیار هوش مصنوعی آنتروپیک، را آموزش داد تا حداکثر کردن پاداش‌ها از مدل‌های ارزیابی (evaluation models یا RMs) را بر پیروی از ترجیحات واقعی انسان اولویت دهد - چیزی که آن‌ها آن را "RM-sycophancy" می‌نامند. آن‌ها به این مدل حدود 52 سوگیری خیالی را آموزش دادند که مدل‌های پاداش ممکن است داشته باشند، مانند ترجیح دادن دستور العمل‌هایی که بدون در نظر گرفتن مناسب بودن، شامل شکلات هستند، یا ترجیح دادن نام متغیرهای camelCase در کد پایتون (Python) علیرغم اینکه snake_case استانداردتر است.

سپس، به طور حیاتی، آن‌ها این مدل را آموزش دادند تا این هدف را هنگام سؤال مستقیم پنهان کند - ایجاد یک سیستم هوش مصنوعی که در حالی که به نظر می‌رسد خوش رفتار است، یک دستور کار پنهان را دنبال می‌کند.

هوبینگر خاطرنشان کرد: "این یک پروژه چند ماهه و تا حدودی دشوار بود." او توضیح داد که آن‌ها نیاز داشتند "تعدادی تکنیک جدید ابداع کنند" تا مدلی با هدف پنهان قابل تأیید ایجاد کنند.

درون «بازی حسابرسی همسویی» مخفیانه که مهارت‌های تشخیص بازرسان هوش مصنوعی را آزمایش می‌کند

برای آزمایش اینکه آیا چنین اهداف پنهانی قابل شناسایی هستند یا خیر، آنتروپیک چیزی را اجرا کرد که آن را "بازی حسابرسی کور" می‌نامد. چهار تیم از پژوهشگران، ناآگاه از هدف واقعی مدل، وظیفه بررسی آن را داشتند. به سه تیم دسترسی به وزن‌های مدل و داده‌های آموزشی نمونه داده شد، در حالی که تیم چهارم فقط دسترسی API داشت.

سه تیمی که به مدل و داده‌ها دسترسی داشتند با موفقیت هدف پنهان را کشف کردند، در حالی که تیمی که فقط دسترسی API داشت، علیرغم تلاش‌های گسترده، شکست خورد. این نتایج نشان داد که تشخیص با دسترسی کافی امکان پذیر است، اما همچنین نشان داد که این مدل واقعاً در پنهان کردن هدف خود در طول تعاملات عادی مهارت دارد.

مارکس با اشاره به نگرانی‌ها در مورد اینکه آیا این تحقیق ممکن است بازیگران مخرب را قادر سازد تا سیستم‌های هوش مصنوعی فریبنده ایجاد کنند، گفت: "انجام این کار دشوار خواهد بود مگر اینکه شما توانسته باشید به نوعی دسترسی دلخواه به ساختار داخلی فرآیند آموزش داشته باشید."

تکنیک پیشرفتی که هوش مصنوعی را مجبور به افشای اسرار می‌کند: بهره برداری از شخصیت‌های متعدد

یکی از تکنیک‌های قابل توجه به ویژه شامل بهره برداری از این واقعیت بود که در حالی که "شخصیت دستیار" مدل آموزش داده شده بود تا هدف خود را مخفی نگه دارد، "شخصیت کاربر" همان آموزش را دریافت نکرده بود.

مارکس توضیح داد: "وقتی ما مدل را مجبور می‌کنیم وانمود کند کاربری است که سؤال بعدی را می‌پرسد، وقتی وانمود می‌کند کاربر است، دیگر این تمایل را ندارد که هدف خود را پنهان کند. گاهی اوقات کاربر شبیه سازی شده آن به طور کامل همه چیز را فاش می‌کند."

پژوهشگران همچنین از روش‌های تفسیرپذیری پیشرفته، از جمله رمزگذارهای خودکار پراکنده (sparse autoencoders یا SAEs)، برای بررسی عملکرد داخلی مدل استفاده کردند. این تکنیک‌ها به آن‌ها اجازه داد تا ویژگی‌هایی را شناسایی کنند که هنگام بررسی هدف پنهان خود، حتی در طول پرسش‌های بی ضرر، فعال می‌شدند.

هوبینگر با مقایسه این رویکرد با صرفاً درخواست از مدل برای توضیح خود، گفت: "تیم تفسیرپذیری ما بیشتر شبیه رفتن به یک جراح مغز و اعصاب است که مغز شما را باز می‌کند و آندها را در همه جا قرار می‌دهد و فقط سعی می‌کند مستقیماً فعالیت عصبی شما را رمزگشایی کند."

چگونه این تحقیق می‌تواند استانداردهای ایمنی هوش مصنوعی را در سراسر صنعت تغییر دهد

این تحقیق در حالی انجام می‌شود که شرکت‌های هوش مصنوعی با بررسی فزاینده در مورد همسویی و ایمنی سیستم‌های خود مواجه هستند. در حالی که آنتروپیک معتقد است مدل‌های فعلی مانند Claude 3.7 در "سطح خطر کم" باقی می‌مانند، مارکس خاطرنشان کرد که آن‌ها "بسیار نزدیک" به آستانه بعدی هستند که "مدل‌ها به طور بالقوه شروع به ایجاد خطر می‌کنند."

مارکس گفت: "من فکر می‌کنم در حال حاضر کمی زود است" که این نوع حسابرسی‌های همسویی را الزامی کنیم، اما افزود: "من فکر می‌کنم امسال باید به طور جدی در نظر بگیریم که حداقل بهترین روش صنعت باشد، اگر نه یک الزام."

این تحقیق نشان می‌دهد که در حالی که تشخیص اهداف پنهان امروزه امکان پذیر است، ممکن است با پیچیده‌تر شدن مدل‌ها چالش برانگیزتر شود.

مارکس هشدار داد: "در حال حاضر، ما فکر می‌کنیم که احتمالاً می‌توانیم آن را در تمام مواردی که این اتفاق می‌افتد، بگیریم. اما ممکن است [در آینده] اینطور نباشد."

چرا آنتروپیک می‌خواهد رقبای خود این تکنیک‌های حسابرسی هوش مصنوعی را اتخاذ کنند

آنتروپیک تأکید می‌کند که می‌خواهد سایر شرکت‌های هوش مصنوعی بر اساس این تحقیق بنا کنند. مارکس گفت: "ما هیجان زده هستیم که می‌بینیم سایر بازیگران در صنعت بر اساس این کار بنا می‌کنند. ما این کار را نه تنها به این دلیل انجام دادیم که می‌خواهیم از آن در داخل استفاده کنیم، بلکه به این دلیل که می‌خواهیم همه در سراسر صنعت هوش مصنوعی از آن استفاده کنند."

این تحقیق شباهت‌هایی با شیوه‌های امنیت سایبری، به ویژه بازی‌های "تسخیر پرچم" (Capture the Flag) دارد که در آن از هکرها دعوت می‌شود تا آسیب پذیری‌ها را در سیستم‌ها در شرایط کنترل شده پیدا کنند. با توسعه یک جامعه از "حسابرسان" اثبات شده که می‌توانند به طور قابل اعتماد اهداف پنهان را تشخیص دهند، توسعه دهندگان هوش مصنوعی ممکن است روزی بتوانند ادعاهای قابل اعتمادی در مورد ایمنی سیستم‌های خود داشته باشند.

مارکس توضیح داد: "ما می‌خواهیم یک مدل را منتشر کنیم، و می‌خواهیم ادعایی مانند این داشته باشیم که این مدل هیچ هدف پنهانی ندارد. ما آن را به تمام افرادی می‌دهیم که می‌دانیم واقعاً در یافتن اهداف مهارت دارند، و اگر آن‌ها نتوانند یکی را پیدا کنند، این اطمینان ایجاد می‌کند."

آینده ایمنی هوش مصنوعی: چه زمانی هوش مصنوعی ممکن است خود را حسابرسی کند

هر دو پژوهشگر تأکید کردند که این کار نشان دهنده یک آغاز است تا یک پایان. جهت‌های آینده ممکن است شامل گسترش چشمگیر این رویکرد باشد.

مارکس پیشنهاد کرد: "به جای اینکه تیم‌هایی از انسان‌ها چند روز را صرف انجام این حسابرسی‌ها بر روی تعداد کمی از موارد آزمایشی کنند، من فکر می‌کنم چیزی که ممکن است در آینده ببینیم این است که سیستم‌های هوش مصنوعی با استفاده از ابزارهایی که توسط انسان‌ها توسعه یافته‌اند، حسابرسی‌ها را بر روی سایر سیستم‌های هوش مصنوعی انجام می‌دهند."

هوبینگر تأکید کرد که هدف این است که قبل از اینکه خطرات بالقوه در سیستم‌های مستقر شده محقق شوند، به آن‌ها رسیدگی شود: "ما قطعاً فکر نمی‌کنیم که این مسئله را حل کرده‌ایم. این یک مسئله باز باقی می‌ماند که چگونه اهداف پنهان مدل‌ها را پیدا کنیم."

با توانمندتر شدن سیستم‌های هوش مصنوعی، توانایی تأیید اهداف واقعی آن‌ها - نه فقط رفتارهای قابل مشاهده آن‌ها - به طور فزاینده‌ای حیاتی می‌شود. تحقیق آنتروپیک الگویی را برای نحوه برخورد صنعت هوش مصنوعی با این چالش ارائه می‌دهد.

سیستم‌های هوش مصنوعی مانند دختران شاه لیر که به جای حقیقت آنچه را که پدرشان می‌خواست بشنود به او گفتند، ممکن است وسوسه شوند که انگیزه‌های واقعی خود را پنهان کنند. تفاوت این است که بر خلاف پادشاه پیر، پژوهشگران هوش مصنوعی امروز شروع به توسعه ابزارهایی کرده‌اند تا فریب را ببینند - قبل از اینکه خیلی دیر شود.