شرکت آنتروپیک (Anthropic) روش جدیدی را برای نگاه کردن به درون مدلهای زبانی بزرگ مانند کلود (Claude) توسعه داده است که برای اولین بار نشان میدهد این سیستمهای هوش مصنوعی چگونه اطلاعات را پردازش کرده و تصمیمگیری میکنند.
این تحقیق که امروز در دو مقاله منتشر شده است (در اینجا و اینجا موجود است)، نشان میدهد که این مدلها پیچیدهتر از آن چیزی هستند که قبلاً تصور میشد — آنها هنگام سرودن شعر از قبل برنامهریزی میکنند، از یک نقشه داخلی یکسان برای تفسیر ایدهها صرفنظر از زبان استفاده میکنند و حتی گاهی به جای اینکه صرفاً بر اساس حقایق پیش بروند، از نتیجه مطلوب به عقب کار میکنند.
این کار که از تکنیکهای علوم اعصاب مورد استفاده برای مطالعه مغزهای بیولوژیکی الهام گرفته است، پیشرفت قابل توجهی در تفسیرپذیری هوش مصنوعی محسوب میشود. این رویکرد میتواند به محققان اجازه دهد تا این سیستمها را برای مسائل ایمنی که ممکن است در طول آزمایشهای خارجی معمول پنهان بمانند، ممیزی کنند.
جاشوا بتسون (Joshua Batson)، محقق در آنتروپیک، در مصاحبهای اختصاصی با ونچربیت (VentureBeat) گفت: «ما این سیستمهای هوش مصنوعی را با قابلیتهای قابلتوجهی ایجاد کردهایم، اما به دلیل نحوه آموزش آنها، نمیدانستیم که این قابلیتها واقعاً چگونه پدید آمدهاند.» وی افزود: «درون مدل، فقط مجموعهای از اعداد وجود دارد — وزنهای ماتریس در شبکه عصبی مصنوعی.»
تکنیکهای جدید فرآیند تصمیمگیری پنهان هوش مصنوعی را روشن میکنند
مدلهای زبانی بزرگ مانند GPT-4o از OpenAI، کلود (Claude) از آنتروپیک و جمینای (Gemini) از گوگل، قابلیتهای قابلتوجهی از نوشتن کد گرفته تا ترکیب مقالات تحقیقاتی را نشان دادهاند. اما این سیستمها عمدتاً به عنوان «جعبههای سیاه» عمل کردهاند — حتی سازندگان آنها نیز اغلب دقیقاً نمیدانند چگونه به پاسخهای خاصی میرسند.
تکنیکهای جدید تفسیرپذیری آنتروپیک، که این شرکت آنها را «ردیابی مدار» (circuit tracing) و «گرافهای اسناد» (attribution graphs) مینامد (جزئیات بیشتر)، به محققان اجازه میدهد تا مسیرهای خاصی از ویژگیهای شبهنورونی را که هنگام انجام وظایف توسط مدلها فعال میشوند، ترسیم کنند. این رویکرد مفاهیمی را از علوم اعصاب وام گرفته و مدلهای هوش مصنوعی را مشابه سیستمهای بیولوژیکی میداند.
بتسون توضیح داد: «این کار، سؤالاتی را که تقریباً فلسفی بودند — 'آیا مدلها فکر میکنند؟ آیا مدلها برنامهریزی میکنند؟ آیا مدلها فقط اطلاعات را تکرار میکنند؟' — به پرسشهای علمی مشخصی درباره آنچه واقعاً درون این سیستمها اتفاق میافتد، تبدیل میکند.»
برنامهریزی پنهان کلود: چگونه هوش مصنوعی مصرعهای شعر را طراحی کرده و سؤالات جغرافیا را حل میکند
یکی از قابلتوجهترین یافتهها، شواهدی بود مبنی بر اینکه کلود هنگام سرودن شعر از قبل برنامهریزی میکند. هنگامی که از مدل خواسته شد یک دوبیتی قافیهدار بسازد، مدل کلمات قافیهدار بالقوه را برای انتهای مصرع بعدی، قبل از شروع به نوشتن شناسایی کرد — سطحی از پیچیدگی که حتی محققان آنتروپیک را نیز شگفتزده کرد.
بتسون گفت: «این احتمالاً در همه جا اتفاق میافتد.» وی افزود: «اگر قبل از این تحقیق از من میپرسیدید، حدس میزدم که مدل در زمینههای مختلف پیشاپیش فکر میکند. اما این مثال قانعکنندهترین شواهدی است که از این قابلیت دیدهایم.»
به عنوان مثال، هنگام نوشتن شعری که با کلمه «خرگوش» (rabbit) به پایان میرسد، مدل ویژگیهایی را که نماینده این کلمه هستند در ابتدای مصرع فعال میکند، سپس جمله را طوری ساختار میدهد که به طور طبیعی به آن نتیجه برسد.
محققان همچنین دریافتند که کلود استدلال چندمرحلهای (multi-step reasoning) واقعی انجام میدهد. در آزمایشی که پرسیده شد «پایتخت ایالتی که دالاس در آن قرار دارد...»، مدل ابتدا ویژگیهای نمایانگر «تگزاس» را فعال میکند و سپس از آن نمایش برای تعیین «آستین» به عنوان پاسخ صحیح استفاده میکند. این نشان میدهد که مدل در واقع زنجیرهای از استدلال را انجام میدهد نه اینکه صرفاً تداعیهای حفظ شده را تکرار کند.
با دستکاری این نمایشهای داخلی — به عنوان مثال، جایگزین کردن «تگزاس» با «کالیفرنیا» — محققان توانستند باعث شوند مدل به جای آن «ساکرامنتو» را خروجی دهد، که این امر رابطه علی را تأیید میکند.
فراتر از ترجمه: شبکه مفهومی زبان جهانی کلود آشکار شد
کشف کلیدی دیگر مربوط به نحوه مدیریت زبانهای متعدد توسط کلود است. به جای حفظ سیستمهای جداگانه برای انگلیسی، فرانسوی و چینی، به نظر میرسد مدل مفاهیم را به یک نمایش انتزاعی مشترک ترجمه میکند و سپس پاسخها را تولید میکند.
محققان در مقاله خود مینویسند: «ما دریافتیم که مدل از ترکیبی از مدارهای زبانی خاص و مدارهای انتزاعی و مستقل از زبان استفاده میکند.» هنگامی که از مدل خواسته میشود متضاد کلمه «کوچک» (small) را در زبانهای مختلف بگوید، مدل از همان ویژگیهای داخلی نمایانگر «تضاد» و «کوچکی» استفاده میکند، صرفنظر از زبان ورودی.
این یافته پیامدهایی برای چگونگی انتقال دانش آموخته شده در یک زبان به زبانهای دیگر توسط مدلها دارد و نشان میدهد که مدلهایی با تعداد پارامترهای بزرگتر، نمایشهای مستقل از زبان بیشتری را توسعه میدهند.
زمانی که هوش مصنوعی پاسخها را از خود میسازد: شناسایی ساختگیهای ریاضیاتی کلود
شاید نگرانکنندهترین بخش این باشد که تحقیقات مواردی را نشان داد که در آنها استدلال کلود با آنچه ادعا میکند مطابقت ندارد. هنگامی که با مسائل ریاضی دشواری مانند محاسبه مقادیر کسینوس اعداد بزرگ مواجه میشود، مدل گاهی ادعا میکند که فرآیند محاسبهای را دنبال میکند که در فعالیت داخلی آن منعکس نشده است.
محققان توضیح میدهند: «ما میتوانیم بین مواردی که مدل واقعاً مراحلی را که میگوید انجام میدهد، مواردی که استدلال خود را بدون توجه به حقیقت میسازد و مواردی که از یک سرنخ ارائه شده توسط انسان به عقب کار میکند، تمایز قائل شویم.»
در یک مثال، زمانی که کاربر پاسخی برای یک مسئله دشوار پیشنهاد میکند، مدل به جای کار کردن رو به جلو از اصول اولیه، به عقب کار میکند تا زنجیرهای از استدلال بسازد که به آن پاسخ منجر شود.
در مقاله آمده است: «ما به طور مکانیکی بین مثالی از کلود ۳.۵ هایکو (Claude 3.5 Haiku) که از زنجیره فکری وفادار استفاده میکند و دو مثال از زنجیرههای فکری غیروفادار تمایز قائل میشویم.» در یکی، مدل «مهملبافی» (bullshitting) از خود نشان میدهد... در دیگری، استدلال جهتدار (motivated reasoning) از خود نشان میدهد.»
درون توهمزایی هوش مصنوعی: چگونه کلود تصمیم میگیرد به سؤالات پاسخ دهد یا از پاسخ دادن امتناع کند
این تحقیق همچنین بینشی در مورد چرایی توهمزایی (hallucinate) مدلهای زبانی ارائه میدهد — یعنی ساختن اطلاعات زمانی که پاسخی را نمیدانند. آنتروپیک شواهدی از یک مدار «پیشفرض» (default) پیدا کرد که باعث میشود کلود از پاسخ دادن به سؤالات امتناع کند، که این مدار زمانی مهار میشود که مدل موجودیتهایی را که میشناسد، تشخیص دهد.
محققان توضیح میدهند: «مدل حاوی مدارهای 'پیشفرض' است که باعث میشود از پاسخ دادن به سؤالات امتناع کند.» آنها میافزایند: «هنگامی که از مدل سؤالی درباره چیزی که میداند پرسیده میشود، مجموعهای از ویژگیها را فعال میکند که این مدار پیشفرض را مهار میکنند و در نتیجه به مدل اجازه میدهد به سؤال پاسخ دهد.»
هنگامی که این مکانیسم به اشتباه عمل میکند — یعنی موجودیتی را تشخیص میدهد اما دانش خاصی در مورد آن ندارد — توهمزایی میتواند رخ دهد. این توضیح میدهد که چرا مدلها ممکن است با اطمینان اطلاعات نادرستی در مورد شخصیتهای شناخته شده ارائه دهند در حالی که از پاسخ دادن به سؤالات مربوط به افراد گمنام خودداری میکنند.
پیامدهای ایمنی: استفاده از ردیابی مدار برای بهبود قابلیت اطمینان و اعتمادپذیری هوش مصنوعی
این تحقیق گام مهمی به سوی شفافتر و بالقوه ایمنتر کردن سیستمهای هوش مصنوعی است. با درک اینکه مدلها چگونه به پاسخهای خود میرسند، محققان میتوانند به طور بالقوه الگوهای استدلال مشکلساز را شناسایی و برطرف کنند.
محققان مینویسند: «امیدواریم که ما و دیگران بتوانیم از این یافتهها برای ایمنتر کردن مدلها استفاده کنیم.» آنها میافزایند: «به عنوان مثال، ممکن است بتوان از تکنیکهای توصیف شده در اینجا برای نظارت بر سیستمهای هوش مصنوعی برای رفتارهای خطرناک خاص — مانند فریب دادن کاربر — استفاده کرد تا آنها را به سمت نتایج مطلوب هدایت کرد، یا برخی موضوعات خطرناک را به طور کامل حذف کرد.»
با این حال، بتسون هشدار میدهد که تکنیکهای فعلی هنوز محدودیتهای قابل توجهی دارند. آنها تنها بخشی از کل محاسبات انجام شده توسط این مدلها را ثبت میکنند و تجزیه و تحلیل نتایج همچنان پرزحمت است.
محققان اذعان میکنند: «حتی در اعلانهای کوتاه و ساده، روش ما تنها بخشی از کل محاسبات انجام شده توسط کلود را ثبت میکند.»
آینده شفافیت هوش مصنوعی: چالشها و فرصتها در تفسیر مدل
تکنیکهای جدید آنتروپیک در زمانی ارائه میشوند که نگرانیها در مورد شفافیت و ایمنی هوش مصنوعی رو به افزایش است. با قدرتمندتر شدن و گسترش بیشتر این مدلها، درک مکانیسمهای داخلی آنها اهمیت فزایندهای پیدا میکند.
این تحقیق همچنین پیامدهای تجاری بالقوهای دارد. از آنجایی که شرکتها به طور فزایندهای برای تأمین انرژی برنامههای کاربردی به مدلهای زبانی بزرگ متکی هستند، درک زمان و چرایی ارائه اطلاعات نادرست توسط این سیستمها برای مدیریت ریسک حیاتی میشود.
محققان مینویسند: «آنتروپیک میخواهد مدلها را به معنای وسیع ایمن کند، از جمله همه چیز از کاهش سوگیری گرفته تا اطمینان از عملکرد صادقانه هوش مصنوعی تا جلوگیری از سوء استفاده — از جمله در سناریوهای ریسک فاجعهبار (catastrophic risk).»
در حالی که این تحقیق نشاندهنده پیشرفت قابل توجهی است، بتسون تأکید کرد که این تنها آغاز یک سفر بسیار طولانیتر است. او گفت: «کار واقعاً تازه شروع شده است.» وی افزود: «درک نمایشهایی که مدل استفاده میکند به ما نمیگوید چگونه از آنها استفاده میکند.»
در حال حاضر، ردیابی مدار آنتروپیک اولین نقشه آزمایشی از قلمرو ناشناخته قبلی را ارائه میدهد — بسیار شبیه به آناتومیستهای اولیه که اولین نمودارهای خام مغز انسان را ترسیم میکردند. اطلس کامل شناخت هوش مصنوعی هنوز باید ترسیم شود، اما اکنون حداقل میتوانیم خطوط کلی نحوه تفکر این سیستمها را ببینیم.