سرانجام داریم می‌فهمیم مدل‌های زبانی بزرگ چگونه کار می‌کنند: نه، آن‌ها صرفاً کلمه به کلمه پیش‌بینی نمی‌کنند

نمودار پردازش زبان توسط مدل کلود
نمودار نشان‌دهنده چگونگی پردازش زبان توسط مدل کلود

در زمینه: پیشرفت‌های مداومی که شرکت‌های هوش مصنوعی در مدل‌های خود ایجاد می‌کنند، ممکن است شما را به این فکر وادارد که سرانجام فهمیده‌ایم مدل‌های زبانی بزرگ (LLM) چگونه کار می‌کنند. اما نه – مدل‌های زبانی بزرگ همچنان یکی از کمتر درک‌شده‌ترین فناوری‌های بازار انبوه هستند. با این حال، شرکت انتروپیک در تلاش است تا با استفاده از تکنیک جدیدی به نام ردیابی مدار (circuit tracing)، این وضعیت را تغییر دهد؛ این تکنیک به شرکت کمک کرده است تا برخی از سازوکارهای داخلی مدل Claude 3.5 Haiku خود را ترسیم کند.

ردیابی مدار تکنیکی نسبتاً جدید است که به محققان اجازه می‌دهد نحوه ساخت پاسخ توسط یک مدل هوش مصنوعی را مرحله به مرحله ردیابی کنند – مانند دنبال کردن سیم‌کشی در مغز. این روش با زنجیر کردن اجزای مختلف یک مدل کار می‌کند. انتروپیک از آن برای جاسوسی در کارکردهای داخلی کلود استفاده کرد. این کار برخی روش‌های واقعاً عجیب و غریب و گاهی غیرانسانی برای رسیدن به پاسخ را آشکار ساخت که ربات حتی هنگام پرسش، به استفاده از آن‌ها اذعان نمی‌کرد.

در مجموع، تیم تحقیقاتی ۱۰ رفتار مختلف را در کلود بررسی کرد. سه مورد برجسته بودند.

یکی از آن‌ها بسیار ساده بود و شامل پاسخ به سؤال «متضاد کلمه کوچک چیست؟» به زبان‌های مختلف می‌شد. شاید فکر کنید کلود ممکن است اجزای جداگانه‌ای برای انگلیسی، فرانسوی یا چینی داشته باشد. اما نه، ابتدا با استفاده از مدارهای مستقل از زبان، پاسخ (چیزی مرتبط با «بزرگی») را پیدا می‌کند، سپس کلمات مناسب را برای مطابقت با زبان سؤال انتخاب می‌کند.

این بدان معناست که کلود صرفاً ترجمه‌های حفظ‌شده را بازگو نمی‌کند – بلکه مفاهیم انتزاعی را در بین زبان‌ها به کار می‌برد، تقریباً شبیه به یک انسان.

سپس نوبت به ریاضیات می‌رسد. از کلود بخواهید ۳۶ و ۵۹ را جمع کند، به جای دنبال کردن روش استاندارد (جمع کردن یکان‌ها، انتقال دهگان و غیره)، کاری بسیار عجیب‌تر انجام می‌دهد. با تخمین زدن از طریق جمع کردن «حدود ۴۰ و حدود ۶۰» یا «حدود ۵۷ و حدود ۳۶» شروع می‌کند و در نهایت به «حدود ۹۲» می‌رسد. در همین حال، بخش دیگری از مدل روی ارقام ۶ و ۹ تمرکز می‌کند و متوجه می‌شود که پاسخ باید به ۵ ختم شود. با ترکیب این دو مرحله عجیب، به عدد ۹۵ می‌رسد.

با این حال، اگر از کلود بپرسید که چگونه مسئله را حل کرده است، با اطمینان روش استاندارد دوران دبستان را توصیف می‌کند و فرآیند استدلال واقعی و عجیب خود را پنهان می‌سازد.

شعر حتی عجیب‌تر است. محققان به کلود وظیفه دادند یک دوبیتی قافیه‌دار بنویسد و به آن اعلان «یک دوبیتی قافیه‌دار: او یک هویج دید و مجبور شد آن را بقاپد.» (A rhyming couplet: He saw a carrot and had to grab it) را دادند. در اینجا، مدل هنگام پردازش «بقاپد» (grab it)، کلمه «خرگوش» (rabbit) را به عنوان کلمه‌ای برای قافیه انتخاب کرد. سپس، به نظر می‌رسید که خط بعدی را با این پایان از پیش تعیین‌شده ساخته و در نهایت خط «گرسنگی‌اش مانند یک خرگوش گرسنه بود.» (His hunger was like a starving rabbit) را بیرون داد.

این نشان می‌دهد که مدل‌های زبانی بزرگ ممکن است آینده‌نگری بیشتری نسبت به آنچه تصور می‌کردیم داشته باشند و همیشه صرفاً یک کلمه پس از دیگری را برای تشکیل یک پاسخ منسجم پیش‌بینی نمی‌کنند.

در مجموع، این یافته‌ها اهمیت زیادی دارند – آن‌ها ثابت می‌کنند که سرانجام می‌توانیم ببینیم این مدل‌ها چگونه عمل می‌کنند، حداقل تا حدی.

با این حال، جاشوا بتسون، دانشمند محقق در این شرکت، به MIT Technology Review اذعان کرد که این‌ها فقط «نوک کوه یخ» هستند. ردیابی حتی یک پاسخ واحد ساعت‌ها طول می‌کشد و هنوز کارهای زیادی برای فهمیدن باقی مانده است.