در زمینه: پیشرفتهای مداومی که شرکتهای هوش مصنوعی در مدلهای خود ایجاد میکنند، ممکن است شما را به این فکر وادارد که سرانجام فهمیدهایم مدلهای زبانی بزرگ (LLM) چگونه کار میکنند. اما نه – مدلهای زبانی بزرگ همچنان یکی از کمتر درکشدهترین فناوریهای بازار انبوه هستند. با این حال، شرکت انتروپیک در تلاش است تا با استفاده از تکنیک جدیدی به نام ردیابی مدار (circuit tracing)، این وضعیت را تغییر دهد؛ این تکنیک به شرکت کمک کرده است تا برخی از سازوکارهای داخلی مدل Claude 3.5 Haiku خود را ترسیم کند.
ردیابی مدار تکنیکی نسبتاً جدید است که به محققان اجازه میدهد نحوه ساخت پاسخ توسط یک مدل هوش مصنوعی را مرحله به مرحله ردیابی کنند – مانند دنبال کردن سیمکشی در مغز. این روش با زنجیر کردن اجزای مختلف یک مدل کار میکند. انتروپیک از آن برای جاسوسی در کارکردهای داخلی کلود استفاده کرد. این کار برخی روشهای واقعاً عجیب و غریب و گاهی غیرانسانی برای رسیدن به پاسخ را آشکار ساخت که ربات حتی هنگام پرسش، به استفاده از آنها اذعان نمیکرد.
در مجموع، تیم تحقیقاتی ۱۰ رفتار مختلف را در کلود بررسی کرد. سه مورد برجسته بودند.
یکی از آنها بسیار ساده بود و شامل پاسخ به سؤال «متضاد کلمه کوچک چیست؟» به زبانهای مختلف میشد. شاید فکر کنید کلود ممکن است اجزای جداگانهای برای انگلیسی، فرانسوی یا چینی داشته باشد. اما نه، ابتدا با استفاده از مدارهای مستقل از زبان، پاسخ (چیزی مرتبط با «بزرگی») را پیدا میکند، سپس کلمات مناسب را برای مطابقت با زبان سؤال انتخاب میکند.
این بدان معناست که کلود صرفاً ترجمههای حفظشده را بازگو نمیکند – بلکه مفاهیم انتزاعی را در بین زبانها به کار میبرد، تقریباً شبیه به یک انسان.
سپس نوبت به ریاضیات میرسد. از کلود بخواهید ۳۶ و ۵۹ را جمع کند، به جای دنبال کردن روش استاندارد (جمع کردن یکانها، انتقال دهگان و غیره)، کاری بسیار عجیبتر انجام میدهد. با تخمین زدن از طریق جمع کردن «حدود ۴۰ و حدود ۶۰» یا «حدود ۵۷ و حدود ۳۶» شروع میکند و در نهایت به «حدود ۹۲» میرسد. در همین حال، بخش دیگری از مدل روی ارقام ۶ و ۹ تمرکز میکند و متوجه میشود که پاسخ باید به ۵ ختم شود. با ترکیب این دو مرحله عجیب، به عدد ۹۵ میرسد.
با این حال، اگر از کلود بپرسید که چگونه مسئله را حل کرده است، با اطمینان روش استاندارد دوران دبستان را توصیف میکند و فرآیند استدلال واقعی و عجیب خود را پنهان میسازد.
شعر حتی عجیبتر است. محققان به کلود وظیفه دادند یک دوبیتی قافیهدار بنویسد و به آن اعلان «یک دوبیتی قافیهدار: او یک هویج دید و مجبور شد آن را بقاپد.» (A rhyming couplet: He saw a carrot and had to grab it) را دادند. در اینجا، مدل هنگام پردازش «بقاپد» (grab it)، کلمه «خرگوش» (rabbit) را به عنوان کلمهای برای قافیه انتخاب کرد. سپس، به نظر میرسید که خط بعدی را با این پایان از پیش تعیینشده ساخته و در نهایت خط «گرسنگیاش مانند یک خرگوش گرسنه بود.» (His hunger was like a starving rabbit) را بیرون داد.
این نشان میدهد که مدلهای زبانی بزرگ ممکن است آیندهنگری بیشتری نسبت به آنچه تصور میکردیم داشته باشند و همیشه صرفاً یک کلمه پس از دیگری را برای تشکیل یک پاسخ منسجم پیشبینی نمیکنند.
در مجموع، این یافتهها اهمیت زیادی دارند – آنها ثابت میکنند که سرانجام میتوانیم ببینیم این مدلها چگونه عمل میکنند، حداقل تا حدی.
با این حال، جاشوا بتسون، دانشمند محقق در این شرکت، به MIT Technology Review اذعان کرد که اینها فقط «نوک کوه یخ» هستند. ردیابی حتی یک پاسخ واحد ساعتها طول میکشد و هنوز کارهای زیادی برای فهمیدن باقی مانده است.