تصویری مفهومی از بررسی فرآیندهای داخلی هوش مصنوعی، مشابه مطالعه مغز.
تصویری مفهومی از بررسی فرآیندهای داخلی هوش مصنوعی، مشابه مطالعه مغز.

دانشمندان آنتروپیک نحوه «تفکر» واقعی هوش مصنوعی را آشکار می‌کنند — و کشف می‌کنند که مخفیانه برنامه‌ریزی می‌کند و گاهی دروغ می‌گوید

شرکت آنتروپیک (Anthropic) روش جدیدی را برای نگاه کردن به درون مدل‌های زبانی بزرگ مانند کلود (Claude) توسعه داده است که برای اولین بار نشان می‌دهد این سیستم‌های هوش مصنوعی چگونه اطلاعات را پردازش کرده و تصمیم‌گیری می‌کنند.

این تحقیق که امروز در دو مقاله منتشر شده است (در اینجا و اینجا موجود است)، نشان می‌دهد که این مدل‌ها پیچیده‌تر از آن چیزی هستند که قبلاً تصور می‌شد — آن‌ها هنگام سرودن شعر از قبل برنامه‌ریزی می‌کنند، از یک نقشه داخلی یکسان برای تفسیر ایده‌ها صرف‌نظر از زبان استفاده می‌کنند و حتی گاهی به جای اینکه صرفاً بر اساس حقایق پیش بروند، از نتیجه مطلوب به عقب کار می‌کنند.

این کار که از تکنیک‌های علوم اعصاب مورد استفاده برای مطالعه مغزهای بیولوژیکی الهام گرفته است، پیشرفت قابل توجهی در تفسیرپذیری هوش مصنوعی محسوب می‌شود. این رویکرد می‌تواند به محققان اجازه دهد تا این سیستم‌ها را برای مسائل ایمنی که ممکن است در طول آزمایش‌های خارجی معمول پنهان بمانند، ممیزی کنند.

جاشوا بتسون (Joshua Batson)، محقق در آنتروپیک، در مصاحبه‌ای اختصاصی با ونچربیت (VentureBeat) گفت: «ما این سیستم‌های هوش مصنوعی را با قابلیت‌های قابل‌توجهی ایجاد کرده‌ایم، اما به دلیل نحوه آموزش آن‌ها، نمی‌دانستیم که این قابلیت‌ها واقعاً چگونه پدید آمده‌اند.» وی افزود: «درون مدل، فقط مجموعه‌ای از اعداد وجود دارد — وزن‌های ماتریس در شبکه عصبی مصنوعی.»

تکنیک‌های جدید فرآیند تصمیم‌گیری پنهان هوش مصنوعی را روشن می‌کنند

مدل‌های زبانی بزرگ مانند GPT-4o از OpenAI، کلود (Claude) از آنتروپیک و جمینای (Gemini) از گوگل، قابلیت‌های قابل‌توجهی از نوشتن کد گرفته تا ترکیب مقالات تحقیقاتی را نشان داده‌اند. اما این سیستم‌ها عمدتاً به عنوان «جعبه‌های سیاه» عمل کرده‌اند — حتی سازندگان آن‌ها نیز اغلب دقیقاً نمی‌دانند چگونه به پاسخ‌های خاصی می‌رسند.

تکنیک‌های جدید تفسیرپذیری آنتروپیک، که این شرکت آن‌ها را «ردیابی مدار» (circuit tracing) و «گراف‌های اسناد» (attribution graphs) می‌نامد (جزئیات بیشتر)، به محققان اجازه می‌دهد تا مسیرهای خاصی از ویژگی‌های شبه‌نورونی را که هنگام انجام وظایف توسط مدل‌ها فعال می‌شوند، ترسیم کنند. این رویکرد مفاهیمی را از علوم اعصاب وام گرفته و مدل‌های هوش مصنوعی را مشابه سیستم‌های بیولوژیکی می‌داند.

بتسون توضیح داد: «این کار، سؤالاتی را که تقریباً فلسفی بودند — 'آیا مدل‌ها فکر می‌کنند؟ آیا مدل‌ها برنامه‌ریزی می‌کنند؟ آیا مدل‌ها فقط اطلاعات را تکرار می‌کنند؟' — به پرسش‌های علمی مشخصی درباره آنچه واقعاً درون این سیستم‌ها اتفاق می‌افتد، تبدیل می‌کند.»

برنامه‌ریزی پنهان کلود: چگونه هوش مصنوعی مصرع‌های شعر را طراحی کرده و سؤالات جغرافیا را حل می‌کند

یکی از قابل‌توجه‌ترین یافته‌ها، شواهدی بود مبنی بر اینکه کلود هنگام سرودن شعر از قبل برنامه‌ریزی می‌کند. هنگامی که از مدل خواسته شد یک دوبیتی قافیه‌دار بسازد، مدل کلمات قافیه‌دار بالقوه را برای انتهای مصرع بعدی، قبل از شروع به نوشتن شناسایی کرد — سطحی از پیچیدگی که حتی محققان آنتروپیک را نیز شگفت‌زده کرد.

بتسون گفت: «این احتمالاً در همه جا اتفاق می‌افتد.» وی افزود: «اگر قبل از این تحقیق از من می‌پرسیدید، حدس می‌زدم که مدل در زمینه‌های مختلف پیشاپیش فکر می‌کند. اما این مثال قانع‌کننده‌ترین شواهدی است که از این قابلیت دیده‌ایم.»

به عنوان مثال، هنگام نوشتن شعری که با کلمه «خرگوش» (rabbit) به پایان می‌رسد، مدل ویژگی‌هایی را که نماینده این کلمه هستند در ابتدای مصرع فعال می‌کند، سپس جمله را طوری ساختار می‌دهد که به طور طبیعی به آن نتیجه برسد.

محققان همچنین دریافتند که کلود استدلال چندمرحله‌ای (multi-step reasoning) واقعی انجام می‌دهد. در آزمایشی که پرسیده شد «پایتخت ایالتی که دالاس در آن قرار دارد...»، مدل ابتدا ویژگی‌های نمایانگر «تگزاس» را فعال می‌کند و سپس از آن نمایش برای تعیین «آستین» به عنوان پاسخ صحیح استفاده می‌کند. این نشان می‌دهد که مدل در واقع زنجیره‌ای از استدلال را انجام می‌دهد نه اینکه صرفاً تداعی‌های حفظ شده را تکرار کند.

با دستکاری این نمایش‌های داخلی — به عنوان مثال، جایگزین کردن «تگزاس» با «کالیفرنیا» — محققان توانستند باعث شوند مدل به جای آن «ساکرامنتو» را خروجی دهد، که این امر رابطه علی را تأیید می‌کند.

فراتر از ترجمه: شبکه مفهومی زبان جهانی کلود آشکار شد

کشف کلیدی دیگر مربوط به نحوه مدیریت زبان‌های متعدد توسط کلود است. به جای حفظ سیستم‌های جداگانه برای انگلیسی، فرانسوی و چینی، به نظر می‌رسد مدل مفاهیم را به یک نمایش انتزاعی مشترک ترجمه می‌کند و سپس پاسخ‌ها را تولید می‌کند.

محققان در مقاله خود می‌نویسند: «ما دریافتیم که مدل از ترکیبی از مدارهای زبانی خاص و مدارهای انتزاعی و مستقل از زبان استفاده می‌کند.» هنگامی که از مدل خواسته می‌شود متضاد کلمه «کوچک» (small) را در زبان‌های مختلف بگوید، مدل از همان ویژگی‌های داخلی نمایانگر «تضاد» و «کوچکی» استفاده می‌کند، صرف‌نظر از زبان ورودی.

این یافته پیامدهایی برای چگونگی انتقال دانش آموخته شده در یک زبان به زبان‌های دیگر توسط مدل‌ها دارد و نشان می‌دهد که مدل‌هایی با تعداد پارامترهای بزرگتر، نمایش‌های مستقل از زبان بیشتری را توسعه می‌دهند.

زمانی که هوش مصنوعی پاسخ‌ها را از خود می‌سازد: شناسایی ساختگی‌های ریاضیاتی کلود

شاید نگران‌کننده‌ترین بخش این باشد که تحقیقات مواردی را نشان داد که در آن‌ها استدلال کلود با آنچه ادعا می‌کند مطابقت ندارد. هنگامی که با مسائل ریاضی دشواری مانند محاسبه مقادیر کسینوس اعداد بزرگ مواجه می‌شود، مدل گاهی ادعا می‌کند که فرآیند محاسبه‌ای را دنبال می‌کند که در فعالیت داخلی آن منعکس نشده است.

محققان توضیح می‌دهند: «ما می‌توانیم بین مواردی که مدل واقعاً مراحلی را که می‌گوید انجام می‌دهد، مواردی که استدلال خود را بدون توجه به حقیقت می‌سازد و مواردی که از یک سرنخ ارائه شده توسط انسان به عقب کار می‌کند، تمایز قائل شویم.»

در یک مثال، زمانی که کاربر پاسخی برای یک مسئله دشوار پیشنهاد می‌کند، مدل به جای کار کردن رو به جلو از اصول اولیه، به عقب کار می‌کند تا زنجیره‌ای از استدلال بسازد که به آن پاسخ منجر شود.

در مقاله آمده است: «ما به طور مکانیکی بین مثالی از کلود ۳.۵ هایکو (Claude 3.5 Haiku) که از زنجیره فکری وفادار استفاده می‌کند و دو مثال از زنجیره‌های فکری غیروفادار تمایز قائل می‌شویم.» در یکی، مدل «مهمل‌بافی» (bullshitting) از خود نشان می‌دهد... در دیگری، استدلال جهت‌دار (motivated reasoning) از خود نشان می‌دهد.»

درون توهم‌زایی هوش مصنوعی: چگونه کلود تصمیم می‌گیرد به سؤالات پاسخ دهد یا از پاسخ دادن امتناع کند

این تحقیق همچنین بینشی در مورد چرایی توهم‌زایی (hallucinate) مدل‌های زبانی ارائه می‌دهد — یعنی ساختن اطلاعات زمانی که پاسخی را نمی‌دانند. آنتروپیک شواهدی از یک مدار «پیش‌فرض» (default) پیدا کرد که باعث می‌شود کلود از پاسخ دادن به سؤالات امتناع کند، که این مدار زمانی مهار می‌شود که مدل موجودیت‌هایی را که می‌شناسد، تشخیص دهد.

محققان توضیح می‌دهند: «مدل حاوی مدارهای 'پیش‌فرض' است که باعث می‌شود از پاسخ دادن به سؤالات امتناع کند.» آن‌ها می‌افزایند: «هنگامی که از مدل سؤالی درباره چیزی که می‌داند پرسیده می‌شود، مجموعه‌ای از ویژگی‌ها را فعال می‌کند که این مدار پیش‌فرض را مهار می‌کنند و در نتیجه به مدل اجازه می‌دهد به سؤال پاسخ دهد.»

هنگامی که این مکانیسم به اشتباه عمل می‌کند — یعنی موجودیتی را تشخیص می‌دهد اما دانش خاصی در مورد آن ندارد — توهم‌زایی می‌تواند رخ دهد. این توضیح می‌دهد که چرا مدل‌ها ممکن است با اطمینان اطلاعات نادرستی در مورد شخصیت‌های شناخته شده ارائه دهند در حالی که از پاسخ دادن به سؤالات مربوط به افراد گمنام خودداری می‌کنند.

پیامدهای ایمنی: استفاده از ردیابی مدار برای بهبود قابلیت اطمینان و اعتمادپذیری هوش مصنوعی

این تحقیق گام مهمی به سوی شفاف‌تر و بالقوه ایمن‌تر کردن سیستم‌های هوش مصنوعی است. با درک اینکه مدل‌ها چگونه به پاسخ‌های خود می‌رسند، محققان می‌توانند به طور بالقوه الگوهای استدلال مشکل‌ساز را شناسایی و برطرف کنند.

محققان می‌نویسند: «امیدواریم که ما و دیگران بتوانیم از این یافته‌ها برای ایمن‌تر کردن مدل‌ها استفاده کنیم.» آن‌ها می‌افزایند: «به عنوان مثال، ممکن است بتوان از تکنیک‌های توصیف شده در اینجا برای نظارت بر سیستم‌های هوش مصنوعی برای رفتارهای خطرناک خاص — مانند فریب دادن کاربر — استفاده کرد تا آن‌ها را به سمت نتایج مطلوب هدایت کرد، یا برخی موضوعات خطرناک را به طور کامل حذف کرد.»

با این حال، بتسون هشدار می‌دهد که تکنیک‌های فعلی هنوز محدودیت‌های قابل توجهی دارند. آن‌ها تنها بخشی از کل محاسبات انجام شده توسط این مدل‌ها را ثبت می‌کنند و تجزیه و تحلیل نتایج همچنان پرزحمت است.

محققان اذعان می‌کنند: «حتی در اعلان‌های کوتاه و ساده، روش ما تنها بخشی از کل محاسبات انجام شده توسط کلود را ثبت می‌کند.»

آینده شفافیت هوش مصنوعی: چالش‌ها و فرصت‌ها در تفسیر مدل

تکنیک‌های جدید آنتروپیک در زمانی ارائه می‌شوند که نگرانی‌ها در مورد شفافیت و ایمنی هوش مصنوعی رو به افزایش است. با قدرتمندتر شدن و گسترش بیشتر این مدل‌ها، درک مکانیسم‌های داخلی آن‌ها اهمیت فزاینده‌ای پیدا می‌کند.

این تحقیق همچنین پیامدهای تجاری بالقوه‌ای دارد. از آنجایی که شرکت‌ها به طور فزاینده‌ای برای تأمین انرژی برنامه‌های کاربردی به مدل‌های زبانی بزرگ متکی هستند، درک زمان و چرایی ارائه اطلاعات نادرست توسط این سیستم‌ها برای مدیریت ریسک حیاتی می‌شود.

محققان می‌نویسند: «آنتروپیک می‌خواهد مدل‌ها را به معنای وسیع ایمن کند، از جمله همه چیز از کاهش سوگیری گرفته تا اطمینان از عملکرد صادقانه هوش مصنوعی تا جلوگیری از سوء استفاده — از جمله در سناریوهای ریسک فاجعه‌بار (catastrophic risk)

در حالی که این تحقیق نشان‌دهنده پیشرفت قابل توجهی است، بتسون تأکید کرد که این تنها آغاز یک سفر بسیار طولانی‌تر است. او گفت: «کار واقعاً تازه شروع شده است.» وی افزود: «درک نمایش‌هایی که مدل استفاده می‌کند به ما نمی‌گوید چگونه از آن‌ها استفاده می‌کند.»

در حال حاضر، ردیابی مدار آنتروپیک اولین نقشه آزمایشی از قلمرو ناشناخته قبلی را ارائه می‌دهد — بسیار شبیه به آناتومیست‌های اولیه که اولین نمودارهای خام مغز انسان را ترسیم می‌کردند. اطلس کامل شناخت هوش مصنوعی هنوز باید ترسیم شود، اما اکنون حداقل می‌توانیم خطوط کلی نحوه تفکر این سیستم‌ها را ببینیم.