انتروپیک اکنون می‌تواند سازوکارهای درونی عجیب یک مدل زبانی بزرگ را ردیابی کند

شرکت هوش مصنوعی انتروپیک (Anthropic) روشی ابداع کرده است که امکان نگاه کردن به درون یک مدل زبانی بزرگ (Large Language Model - LLM) و مشاهده عملکرد آن حین ارائه پاسخ را فراهم می‌کند. این روش، بینش‌های کلیدی جدیدی درباره نحوه کار این فناوری آشکار کرده است. نتیجه اصلی: مدل‌های زبانی بزرگ حتی از آنچه فکر می‌کردیم عجیب‌تر هستند.

جاشوا بتسون (Joshua Batson)، دانشمند پژوهشی در این شرکت، می‌گوید تیم انتروپیک از برخی راه‌حل‌های غیرمنتظره‌ای که به نظر می‌رسد مدل‌های زبانی بزرگ برای تکمیل جملات، حل مسائل ریاضی ساده، سرکوب توهمات (hallucinations) و موارد دیگر به کار می‌برند، شگفت‌زده شده است.

بر کسی پوشیده نیست که مدل‌های زبانی بزرگ به روش‌های مرموزی عمل می‌کنند. تعداد کمی از فناوری‌های بازار انبوه، اگر نگوییم هیچ‌کدام، تاکنون تا این حد کم درک شده‌اند. این امر، فهمیدن اینکه چه چیزی آن‌ها را به کار می‌اندازد، به یکی از بزرگ‌ترین چالش‌های باز در علم تبدیل کرده است.

اما این فقط مسئله کنجکاوی نیست. روشن کردن نحوه عملکرد این مدل‌ها، نقاط ضعف آن‌ها را آشکار می‌کند و نشان می‌دهد چرا اطلاعات ساختگی تولید می‌کنند و چرا می‌توان آن‌ها را فریب داد تا از مسیر اصلی منحرف شوند. این کار به حل اختلافات عمیق درباره توانایی‌ها و ناتوانی‌های دقیق این مدل‌ها کمک می‌کند و نشان می‌دهد که واقعاً چقدر قابل اعتماد هستند (یا نیستند).

بتسون و همکارانش کار جدید خود را در دو گزارش که امروز منتشر شد، شرح می‌دهند. گزارش اول استفاده انتروپیک از تکنیکی به نام ردیابی مدار (circuit tracing) را ارائه می‌دهد که به محققان اجازه می‌دهد فرآیندهای تصمیم‌گیری درون یک مدل زبانی بزرگ را گام به گام دنبال کنند. انتروپیک از ردیابی مدار برای مشاهده انجام وظایف مختلف توسط مدل زبانی بزرگ خود، کلود ۳.۵ هایکو (Claude 3.5 Haiku) استفاده کرد. گزارش دوم (با عنوان "درباره زیست‌شناسی یک مدل زبانی بزرگ") جزئیات یافته‌های تیم را هنگام بررسی ۱۰ وظیفه خاص شرح می‌دهد.

جک مرولو (Jack Merullo)، که مدل‌های زبانی بزرگ را در دانشگاه براون در پراویدنس، رود آیلند، مطالعه می‌کند و در این تحقیق دخیل نبوده است، می‌گوید: «فکر می‌کنم این کار واقعاً جالبی است. این یک گام بسیار خوب به جلو از نظر روش‌شناسی است.»

ردیابی مدار به خودی خود جدید نیست. سال گذشته مرولو و همکارانش یک مدار خاص را در نسخه‌ای از GPT-2 متعلق به OpenAI تحلیل کردند؛ یک مدل زبانی بزرگ قدیمی‌تر که OpenAI در سال ۲۰۱۹ منتشر کرد. اما انتروپیک اکنون تعدادی مدار مختلف را درون یک مدل بسیار بزرگ‌تر و بسیار پیچیده‌تر در حین انجام وظایف متعدد، تحلیل کرده است. مرولو می‌گوید: «انتروپیک در به‌کارگیری مقیاس برای یک مسئله بسیار توانمند است.»

ادن بیران (Eden Biran)، که مدل‌های زبانی بزرگ را در دانشگاه تل‌آویو مطالعه می‌کند، موافق است. او می‌گوید: «یافتن مدارها در یک مدل پیشرفته و بزرگ مانند کلود یک شاهکار مهندسی غیر بدیهی است. و نشان می‌دهد که مدارها مقیاس‌پذیر هستند و ممکن است راه خوبی برای تفسیر مدل‌های زبانی باشند.»

مدارها بخش‌های مختلف - یا اجزا (components) - یک مدل را به هم متصل می‌کنند. سال گذشته، انتروپیک اجزای خاصی را در داخل کلود شناسایی کرد که با مفاهیم دنیای واقعی مطابقت داشتند. برخی خاص بودند، مانند «مایکل جردن» یا «سبزی»؛ برخی دیگر مبهم‌تر بودند، مانند «تعارض بین افراد». به نظر می‌رسید یک جزء نمایانگر پل گلدن گیت (Golden Gate Bridge) باشد. محققان انتروپیک دریافتند که اگر درجه تنظیم این جزء را بالا ببرند، می‌توان کاری کرد که کلود خود را نه به عنوان یک مدل زبانی بزرگ، بلکه به عنوان خودِ پل فیزیکی معرفی کند.

آخرین کار بر پایه آن تحقیق و کار دیگران، از جمله گوگل دیپ‌مایند (Google DeepMind)، بنا شده است تا برخی از اتصالات بین اجزای منفرد را آشکار کند. زنجیره‌های اجزا، مسیرهای بین کلماتی هستند که به کلود وارد می‌شوند و کلماتی که از آن خارج می‌شوند.

بتسون می‌گوید: «این‌ها نوک کوه یخ هستند. شاید ما تنها چند درصد از آنچه در حال وقوع است را می‌بینیم. اما همین مقدار هم برای دیدن ساختار باورنکردنی کافی است.»

رشد دادن مدل‌های زبانی بزرگ

محققان در انتروپیک و جاهای دیگر، مدل‌های زبانی بزرگ را به گونه‌ای مطالعه می‌کنند که گویی پدیده‌های طبیعی هستند، نه نرم‌افزارهای ساخته دست بشر. دلیلش این است که این مدل‌ها آموزش داده می‌شوند، نه اینکه برنامه‌ریزی شوند.

بتسون می‌گوید: «آن‌ها تقریباً به صورت ارگانیک رشد می‌کنند. در ابتدا کاملاً تصادفی هستند. سپس شما آن‌ها را با تمام این داده‌ها آموزش می‌دهید و از تولید مزخرفات به توانایی صحبت کردن به زبان‌های مختلف، نوشتن نرم‌افزار و تا کردن پروتئین‌ها می‌رسند. کارهای دیوانه‌واری وجود دارد که این مدل‌ها یاد می‌گیرند انجام دهند، اما ما نمی‌دانیم چگونه این اتفاق افتاده است زیرا ما وارد آن نشدیم و تنظیمات را انجام ندادیم.»

البته، همه چیز ریاضیات است. اما ریاضیاتی نیست که ما بتوانیم دنبال کنیم. بتسون می‌گوید: «یک مدل زبانی بزرگ را باز کنید و تنها چیزی که خواهید دید میلیاردها عدد است - پارامترها. این روشنگر نیست.»

انتروپیک می‌گوید از تکنیک‌های اسکن مغز که در علوم اعصاب استفاده می‌شود الهام گرفته است تا چیزی را بسازد که شرکت آن را نوعی میکروسکوپ توصیف می‌کند که می‌توان آن را به سمت بخش‌های مختلف مدل در حین اجرا نشانه رفت. این تکنیک اجزایی را که در زمان‌های مختلف فعال هستند، برجسته می‌کند. سپس محققان می‌توانند روی اجزای مختلف بزرگ‌نمایی کرده و زمان فعال بودن و نبودن آن‌ها را ثبت کنند.

برای مثال، جزئی را در نظر بگیرید که با پل گلدن گیت مطابقت دارد. این جزء زمانی روشن می‌شود که به کلود متنی نشان داده شود که نام پل را ذکر می‌کند یا آن را توصیف می‌کند، یا حتی متنی مرتبط با پل، مانند «سانفرانسیسکو» یا «آلکاتراز». در غیر این صورت خاموش است.

با این حال، جزء دیگری ممکن است با مفهوم «کوچکی» مطابقت داشته باشد: بتسون می‌گوید: «ما ده‌ها میلیون متن را بررسی می‌کنیم و می‌بینیم که برای کلمه "small" روشن است، برای کلمه "tiny" روشن است، برای کلمه فرانسوی "petit" روشن است، برای کلمات مرتبط با کوچکی روشن است، چیزهایی که ریزه میزه هستند، مانند انگشتانه—می‌دانید، فقط چیزهای کوچک.»

پس از شناسایی اجزای منفرد، انتروپیک سپس ردپا را در داخل مدل دنبال می‌کند زیرا اجزای مختلف به هم زنجیر می‌شوند. محققان از انتها شروع می‌کنند، با جزء یا اجزایی که منجر به پاسخ نهایی کلود به یک پرسش شده‌اند. سپس بتسون و تیمش آن زنجیره را به عقب ردیابی می‌کنند.

رفتار عجیب

خب: آن‌ها چه چیزی یافتند؟ انتروپیک ۱۰ رفتار مختلف را در کلود بررسی کرد. یکی از آن‌ها شامل استفاده از زبان‌های مختلف بود. آیا کلود بخشی دارد که فرانسوی صحبت می‌کند و بخش دیگری که چینی صحبت می‌کند و غیره؟

تیم دریافت که کلود از اجزای مستقل از هر زبانی برای پاسخ به یک سؤال یا حل یک مشکل استفاده می‌کند و سپس زبان خاصی را برای پاسخ انتخاب می‌کند. از آن به انگلیسی، فرانسوی و چینی بپرسید «متضاد کوچک چیست؟» و کلود ابتدا از اجزای خنثی از نظر زبان مرتبط با «کوچکی» و «متضادها» برای رسیدن به پاسخ استفاده می‌کند. تنها پس از آن است که زبان خاصی را برای پاسخ دادن انتخاب می‌کند. این نشان می‌دهد که مدل‌های زبانی بزرگ می‌توانند چیزهایی را در یک زبان یاد بگیرند و آن‌ها را در زبان‌های دیگر به کار ببرند.

انتروپیک همچنین نحوه حل مسائل ریاضی ساده توسط کلود را بررسی کرد. تیم دریافت که به نظر می‌رسد مدل استراتژی‌های داخلی خود را توسعه داده است که با آنچه در داده‌های آموزشی خود دیده است، متفاوت است. از کلود بخواهید ۳۶ و ۵۹ را جمع کند و مدل مجموعه‌ای از مراحل عجیب را طی می‌کند، از جمله ابتدا جمع کردن مجموعه‌ای از مقادیر تقریبی (حدود ۴۰ و حدود ۶۰ را جمع کن، حدود ۵۷ و حدود ۳۶ را جمع کن). نزدیک به پایان فرآیند خود، به مقدار حدود ۹۲ می‌رسد. در همین حال، دنباله دیگری از مراحل بر روی ارقام آخر، ۶ و ۹، تمرکز می‌کند و تعیین می‌کند که پاسخ باید به ۵ ختم شود. قرار دادن این با حدود ۹۲، پاسخ صحیح ۹۵ را می‌دهد.

و با این حال اگر از کلود بپرسید چگونه این محاسبه را انجام داده است، چیزی شبیه به این می‌گوید: «من یکان‌ها را جمع کردم (۶+۹=۱۵)، ۱ را حمل کردم، سپس دهگان‌ها را جمع کردم (۳+۵+۱=۹)، که نتیجه‌اش ۹۵ شد.» به عبارت دیگر، به شما یک رویکرد رایج را می‌دهد که همه جا آنلاین یافت می‌شود، به جای آنچه واقعاً انجام داده است. بله! مدل‌های زبانی بزرگ عجیب هستند. (و نباید به آن‌ها اعتماد کرد.)

نموداری نشان‌دهنده مراحل غیرمنتظره‌ای که کلود ۳.۵ هایکو برای حل یک مسئله ریاضی ساده طی کرده است.
مراحلی که کلود ۳.۵ هایکو برای حل یک مسئله ریاضی ساده استفاده کرد، آن چیزی نبود که انتروپیک انتظار داشت - و همچنین مراحلی نیستند که کلود ادعا کرد طی کرده است. منبع: انتروپیک

این شواهد روشنی است که مدل‌های زبانی بزرگ دلایلی برای کارهایی که انجام می‌دهند ارائه می‌دهند که لزوماً منعکس کننده آنچه واقعاً انجام داده‌اند نیست. اما بتسون می‌گوید این در مورد انسان‌ها نیز صادق است: «از کسی می‌پرسید: "چرا این کار را کردی؟" و او می‌گوید: "اوم، حدس می‌زنم به این دلیل بود که من - ." می‌دانید، شاید نه. شاید فقط گرسنه بودند و به همین دلیل آن کار را کردند.»

بیران فکر می‌کند این یافته به خصوص جالب است. بسیاری از محققان رفتار مدل‌های زبانی بزرگ را با درخواست از آن‌ها برای توضیح اقداماتشان مطالعه می‌کنند. اما او می‌گوید این ممکن است یک رویکرد مخاطره‌آمیز باشد: «همانطور که مدل‌ها همچنان قوی‌تر می‌شوند، باید به حفاظ‌های بهتری مجهز شوند. من معتقدم - و این کار نیز نشان می‌دهد - که اتکا صرف به خروجی‌های مدل کافی نیست.»

سومین وظیفه‌ای که انتروپیک مطالعه کرد، سرودن شعر بود. محققان می‌خواستند بدانند آیا مدل واقعاً فقط بداهه‌پردازی می‌کند و هر بار یک کلمه را پیش‌بینی می‌کند. در عوض آن‌ها دریافتند که کلود به نوعی به جلو نگاه می‌کند و کلمه انتهای خط بعدی را چندین کلمه جلوتر انتخاب می‌کند.

به عنوان مثال، هنگامی که به کلود اعلان «یک دوبیتی قافیه‌دار: او یک هویج دید و مجبور شد آن را بگیرد (He saw a carrot and had to grab it)» داده شد، مدل پاسخ داد: «گرسنگی او مانند یک خرگوش گرسنه بود (His hunger was like a starving rabbit).» اما با استفاده از میکروسکوپ خود، آن‌ها دیدند که کلود قبلاً هنگام پردازش «grab it» به کلمه «rabbit» رسیده بود. سپس به نظر می‌رسید خط بعدی را با آن پایان از پیش تعیین شده می‌نویسد.

این ممکن است یک جزئیات کوچک به نظر برسد. اما با فرض رایج مبنی بر اینکه مدل‌های زبانی بزرگ همیشه با انتخاب یک کلمه در هر زمان به ترتیب کار می‌کنند، مغایرت دارد. بتسون می‌گوید: «موضوع برنامه‌ریزی در شعرها مرا شگفت‌زده کرد. به جای اینکه در آخرین لحظه سعی کند قافیه را معنی‌دار کند، می‌داند به کجا می‌رود.»

مرولو می‌گوید: «فکر کردم جالب بود. یکی از لذت‌های کار در این زمینه لحظاتی مانند این است. شاید شواهد کوچکی مبنی بر توانایی مدل‌ها برای برنامه‌ریزی از قبل وجود داشته است، اما اینکه تا چه حد این کار را انجام می‌دهند، یک سؤال بزرگ باز بوده است.»

سپس انتروپیک مشاهدات خود را با خاموش کردن جزء جایگزین برای «خرگوشی بودن (rabbitness)» تأیید کرد. کلود پاسخ داد: «گرسنگی او یک عادت قدرتمند بود (His hunger was a powerful habit).» و هنگامی که تیم «خرگوشی بودن» را با «سبزی (greenness)» جایگزین کرد، کلود پاسخ داد: «آزاد کردن آن از سبزی باغ (freeing it from the garden's green).»

انتروپیک همچنین بررسی کرد که چرا کلود گاهی اوقات اطلاعات ساختگی تولید می‌کند، پدیده‌ای که به عنوان توهم (hallucination) شناخته می‌شود. بتسون می‌گوید: «توهم طبیعی‌ترین چیز در جهان برای این مدل‌ها است، با توجه به اینکه آن‌ها فقط برای ارائه تکمیل‌های ممکن آموزش دیده‌اند. سؤال واقعی این است: "چطور به نام خدا می‌توان کاری کرد که هرگز این کار را نکند؟"»

آخرین نسل مدل‌های زبانی بزرگ، مانند کلود ۳.۵ و جمینای و GPT-4o، به لطف پس‌آموزش (post-training) گسترده (مراحلی که یک مدل زبانی بزرگ آموزش دیده بر روی متن جمع‌آوری شده از بیشتر اینترنت را به یک چت‌بات قابل استفاده تبدیل می‌کند)، بسیار کمتر از نسخه‌های قبلی توهم تولید می‌کنند. اما تیم بتسون با کمال تعجب دریافت که به نظر می‌رسد این پس‌آموزش باعث شده است که کلود به عنوان رفتار پیش‌فرض از حدس زدن خودداری کند. هنگامی که با اطلاعات نادرست پاسخ می‌داد، به این دلیل بود که جزء دیگری جزء «حدس نزن» را لغو کرده بود.

به نظر می‌رسید این اتفاق اغلب زمانی رخ می‌دهد که حدس زدن شامل یک سلبریتی یا موجودیت شناخته شده دیگری باشد. گویی میزان اطلاعات موجود در مورد یک موضوع، حدس زدن را علیرغم تنظیم پیش‌فرض، به پیش می‌برد. هنگامی که انتروپیک جزء «حدس نزن» را برای آزمایش این موضوع لغو کرد، کلود اظهارات نادرست زیادی در مورد افراد تولید کرد، از جمله ادعا کرد که بتسون به خاطر اختراع اصل بتسون (Batson principle) مشهور است (که نیست).

هنوز نامشخص

از آنجایی که ما در مورد مدل‌های زبانی بزرگ اطلاعات کمی داریم، هر بینش جدید یک گام بزرگ به جلو است. بیران می‌گوید: «درک عمیق از نحوه عملکرد این مدل‌ها در زیر پوسته به ما امکان می‌دهد مدل‌هایی را طراحی و آموزش دهیم که بسیار بهتر و قوی‌تر باشند.»

اما بتسون خاطرنشان می‌کند که هنوز محدودیت‌های جدی وجود دارد. او می‌گوید: «این یک تصور غلط است که ما تمام اجزای مدل یا، مثلاً، یک دیدگاه خدای‌گونه را یافته‌ایم. برخی چیزها در کانون توجه هستند، اما چیزهای دیگر هنوز نامشخص هستند - یک اعوجاج میکروسکوپ.»

و برای یک محقق انسانی چندین ساعت طول می‌کشد تا پاسخ‌ها را حتی برای اعلان‌های بسیار کوتاه ردیابی کند. علاوه بر این، این مدل‌ها می‌توانند تعداد قابل توجهی از کارهای مختلف را انجام دهند و انتروپیک تاکنون تنها ۱۰ مورد از آن‌ها را بررسی کرده است.

بتسون همچنین می‌گوید سؤالات بزرگی وجود دارد که این رویکرد به آن‌ها پاسخ نخواهد داد. ردیابی مدار به ما نمی‌گوید که چرا مدل‌ها این کارها را انجام می‌دهند یا چگونه یاد گرفتند که آن‌ها را انجام دهند.

شاید بزرگترین سوال این باشد: مدل‌ها چگونه مهارت‌هایی را که دارند یاد می‌گیرند؟ بتسون فکر می‌کند که این سوال به رویکرد متفاوتی نیاز دارد.

او می‌گوید: «در حال حاضر، ما بر درک کاری که مدل در حال حاضر انجام می‌دهد تمرکز کرده‌ایم. چگونه به اینجا رسید؟ این سوال بسیار سخت‌تری است.» او می‌افزاید: «این سوالی است که من واقعاً می‌خواهم جوابش را بدانم.»