شرکت هوش مصنوعی انتروپیک (Anthropic) روشی ابداع کرده است که امکان نگاه کردن به درون یک مدل زبانی بزرگ (Large Language Model - LLM) و مشاهده عملکرد آن حین ارائه پاسخ را فراهم میکند. این روش، بینشهای کلیدی جدیدی درباره نحوه کار این فناوری آشکار کرده است. نتیجه اصلی: مدلهای زبانی بزرگ حتی از آنچه فکر میکردیم عجیبتر هستند.
جاشوا بتسون (Joshua Batson)، دانشمند پژوهشی در این شرکت، میگوید تیم انتروپیک از برخی راهحلهای غیرمنتظرهای که به نظر میرسد مدلهای زبانی بزرگ برای تکمیل جملات، حل مسائل ریاضی ساده، سرکوب توهمات (hallucinations) و موارد دیگر به کار میبرند، شگفتزده شده است.
بر کسی پوشیده نیست که مدلهای زبانی بزرگ به روشهای مرموزی عمل میکنند. تعداد کمی از فناوریهای بازار انبوه، اگر نگوییم هیچکدام، تاکنون تا این حد کم درک شدهاند. این امر، فهمیدن اینکه چه چیزی آنها را به کار میاندازد، به یکی از بزرگترین چالشهای باز در علم تبدیل کرده است.
اما این فقط مسئله کنجکاوی نیست. روشن کردن نحوه عملکرد این مدلها، نقاط ضعف آنها را آشکار میکند و نشان میدهد چرا اطلاعات ساختگی تولید میکنند و چرا میتوان آنها را فریب داد تا از مسیر اصلی منحرف شوند. این کار به حل اختلافات عمیق درباره تواناییها و ناتوانیهای دقیق این مدلها کمک میکند و نشان میدهد که واقعاً چقدر قابل اعتماد هستند (یا نیستند).
بتسون و همکارانش کار جدید خود را در دو گزارش که امروز منتشر شد، شرح میدهند. گزارش اول استفاده انتروپیک از تکنیکی به نام ردیابی مدار (circuit tracing) را ارائه میدهد که به محققان اجازه میدهد فرآیندهای تصمیمگیری درون یک مدل زبانی بزرگ را گام به گام دنبال کنند. انتروپیک از ردیابی مدار برای مشاهده انجام وظایف مختلف توسط مدل زبانی بزرگ خود، کلود ۳.۵ هایکو (Claude 3.5 Haiku) استفاده کرد. گزارش دوم (با عنوان "درباره زیستشناسی یک مدل زبانی بزرگ") جزئیات یافتههای تیم را هنگام بررسی ۱۰ وظیفه خاص شرح میدهد.
جک مرولو (Jack Merullo)، که مدلهای زبانی بزرگ را در دانشگاه براون در پراویدنس، رود آیلند، مطالعه میکند و در این تحقیق دخیل نبوده است، میگوید: «فکر میکنم این کار واقعاً جالبی است. این یک گام بسیار خوب به جلو از نظر روششناسی است.»
ردیابی مدار به خودی خود جدید نیست. سال گذشته مرولو و همکارانش یک مدار خاص را در نسخهای از GPT-2 متعلق به OpenAI تحلیل کردند؛ یک مدل زبانی بزرگ قدیمیتر که OpenAI در سال ۲۰۱۹ منتشر کرد. اما انتروپیک اکنون تعدادی مدار مختلف را درون یک مدل بسیار بزرگتر و بسیار پیچیدهتر در حین انجام وظایف متعدد، تحلیل کرده است. مرولو میگوید: «انتروپیک در بهکارگیری مقیاس برای یک مسئله بسیار توانمند است.»
ادن بیران (Eden Biran)، که مدلهای زبانی بزرگ را در دانشگاه تلآویو مطالعه میکند، موافق است. او میگوید: «یافتن مدارها در یک مدل پیشرفته و بزرگ مانند کلود یک شاهکار مهندسی غیر بدیهی است. و نشان میدهد که مدارها مقیاسپذیر هستند و ممکن است راه خوبی برای تفسیر مدلهای زبانی باشند.»
مدارها بخشهای مختلف - یا اجزا (components) - یک مدل را به هم متصل میکنند. سال گذشته، انتروپیک اجزای خاصی را در داخل کلود شناسایی کرد که با مفاهیم دنیای واقعی مطابقت داشتند. برخی خاص بودند، مانند «مایکل جردن» یا «سبزی»؛ برخی دیگر مبهمتر بودند، مانند «تعارض بین افراد». به نظر میرسید یک جزء نمایانگر پل گلدن گیت (Golden Gate Bridge) باشد. محققان انتروپیک دریافتند که اگر درجه تنظیم این جزء را بالا ببرند، میتوان کاری کرد که کلود خود را نه به عنوان یک مدل زبانی بزرگ، بلکه به عنوان خودِ پل فیزیکی معرفی کند.
آخرین کار بر پایه آن تحقیق و کار دیگران، از جمله گوگل دیپمایند (Google DeepMind)، بنا شده است تا برخی از اتصالات بین اجزای منفرد را آشکار کند. زنجیرههای اجزا، مسیرهای بین کلماتی هستند که به کلود وارد میشوند و کلماتی که از آن خارج میشوند.
بتسون میگوید: «اینها نوک کوه یخ هستند. شاید ما تنها چند درصد از آنچه در حال وقوع است را میبینیم. اما همین مقدار هم برای دیدن ساختار باورنکردنی کافی است.»
رشد دادن مدلهای زبانی بزرگ
محققان در انتروپیک و جاهای دیگر، مدلهای زبانی بزرگ را به گونهای مطالعه میکنند که گویی پدیدههای طبیعی هستند، نه نرمافزارهای ساخته دست بشر. دلیلش این است که این مدلها آموزش داده میشوند، نه اینکه برنامهریزی شوند.
بتسون میگوید: «آنها تقریباً به صورت ارگانیک رشد میکنند. در ابتدا کاملاً تصادفی هستند. سپس شما آنها را با تمام این دادهها آموزش میدهید و از تولید مزخرفات به توانایی صحبت کردن به زبانهای مختلف، نوشتن نرمافزار و تا کردن پروتئینها میرسند. کارهای دیوانهواری وجود دارد که این مدلها یاد میگیرند انجام دهند، اما ما نمیدانیم چگونه این اتفاق افتاده است زیرا ما وارد آن نشدیم و تنظیمات را انجام ندادیم.»
البته، همه چیز ریاضیات است. اما ریاضیاتی نیست که ما بتوانیم دنبال کنیم. بتسون میگوید: «یک مدل زبانی بزرگ را باز کنید و تنها چیزی که خواهید دید میلیاردها عدد است - پارامترها. این روشنگر نیست.»
انتروپیک میگوید از تکنیکهای اسکن مغز که در علوم اعصاب استفاده میشود الهام گرفته است تا چیزی را بسازد که شرکت آن را نوعی میکروسکوپ توصیف میکند که میتوان آن را به سمت بخشهای مختلف مدل در حین اجرا نشانه رفت. این تکنیک اجزایی را که در زمانهای مختلف فعال هستند، برجسته میکند. سپس محققان میتوانند روی اجزای مختلف بزرگنمایی کرده و زمان فعال بودن و نبودن آنها را ثبت کنند.
برای مثال، جزئی را در نظر بگیرید که با پل گلدن گیت مطابقت دارد. این جزء زمانی روشن میشود که به کلود متنی نشان داده شود که نام پل را ذکر میکند یا آن را توصیف میکند، یا حتی متنی مرتبط با پل، مانند «سانفرانسیسکو» یا «آلکاتراز». در غیر این صورت خاموش است.
با این حال، جزء دیگری ممکن است با مفهوم «کوچکی» مطابقت داشته باشد: بتسون میگوید: «ما دهها میلیون متن را بررسی میکنیم و میبینیم که برای کلمه "small" روشن است، برای کلمه "tiny" روشن است، برای کلمه فرانسوی "petit" روشن است، برای کلمات مرتبط با کوچکی روشن است، چیزهایی که ریزه میزه هستند، مانند انگشتانه—میدانید، فقط چیزهای کوچک.»
پس از شناسایی اجزای منفرد، انتروپیک سپس ردپا را در داخل مدل دنبال میکند زیرا اجزای مختلف به هم زنجیر میشوند. محققان از انتها شروع میکنند، با جزء یا اجزایی که منجر به پاسخ نهایی کلود به یک پرسش شدهاند. سپس بتسون و تیمش آن زنجیره را به عقب ردیابی میکنند.
رفتار عجیب
خب: آنها چه چیزی یافتند؟ انتروپیک ۱۰ رفتار مختلف را در کلود بررسی کرد. یکی از آنها شامل استفاده از زبانهای مختلف بود. آیا کلود بخشی دارد که فرانسوی صحبت میکند و بخش دیگری که چینی صحبت میکند و غیره؟
تیم دریافت که کلود از اجزای مستقل از هر زبانی برای پاسخ به یک سؤال یا حل یک مشکل استفاده میکند و سپس زبان خاصی را برای پاسخ انتخاب میکند. از آن به انگلیسی، فرانسوی و چینی بپرسید «متضاد کوچک چیست؟» و کلود ابتدا از اجزای خنثی از نظر زبان مرتبط با «کوچکی» و «متضادها» برای رسیدن به پاسخ استفاده میکند. تنها پس از آن است که زبان خاصی را برای پاسخ دادن انتخاب میکند. این نشان میدهد که مدلهای زبانی بزرگ میتوانند چیزهایی را در یک زبان یاد بگیرند و آنها را در زبانهای دیگر به کار ببرند.
انتروپیک همچنین نحوه حل مسائل ریاضی ساده توسط کلود را بررسی کرد. تیم دریافت که به نظر میرسد مدل استراتژیهای داخلی خود را توسعه داده است که با آنچه در دادههای آموزشی خود دیده است، متفاوت است. از کلود بخواهید ۳۶ و ۵۹ را جمع کند و مدل مجموعهای از مراحل عجیب را طی میکند، از جمله ابتدا جمع کردن مجموعهای از مقادیر تقریبی (حدود ۴۰ و حدود ۶۰ را جمع کن، حدود ۵۷ و حدود ۳۶ را جمع کن). نزدیک به پایان فرآیند خود، به مقدار حدود ۹۲ میرسد. در همین حال، دنباله دیگری از مراحل بر روی ارقام آخر، ۶ و ۹، تمرکز میکند و تعیین میکند که پاسخ باید به ۵ ختم شود. قرار دادن این با حدود ۹۲، پاسخ صحیح ۹۵ را میدهد.
و با این حال اگر از کلود بپرسید چگونه این محاسبه را انجام داده است، چیزی شبیه به این میگوید: «من یکانها را جمع کردم (۶+۹=۱۵)، ۱ را حمل کردم، سپس دهگانها را جمع کردم (۳+۵+۱=۹)، که نتیجهاش ۹۵ شد.» به عبارت دیگر، به شما یک رویکرد رایج را میدهد که همه جا آنلاین یافت میشود، به جای آنچه واقعاً انجام داده است. بله! مدلهای زبانی بزرگ عجیب هستند. (و نباید به آنها اعتماد کرد.)

این شواهد روشنی است که مدلهای زبانی بزرگ دلایلی برای کارهایی که انجام میدهند ارائه میدهند که لزوماً منعکس کننده آنچه واقعاً انجام دادهاند نیست. اما بتسون میگوید این در مورد انسانها نیز صادق است: «از کسی میپرسید: "چرا این کار را کردی؟" و او میگوید: "اوم، حدس میزنم به این دلیل بود که من - ." میدانید، شاید نه. شاید فقط گرسنه بودند و به همین دلیل آن کار را کردند.»
بیران فکر میکند این یافته به خصوص جالب است. بسیاری از محققان رفتار مدلهای زبانی بزرگ را با درخواست از آنها برای توضیح اقداماتشان مطالعه میکنند. اما او میگوید این ممکن است یک رویکرد مخاطرهآمیز باشد: «همانطور که مدلها همچنان قویتر میشوند، باید به حفاظهای بهتری مجهز شوند. من معتقدم - و این کار نیز نشان میدهد - که اتکا صرف به خروجیهای مدل کافی نیست.»
سومین وظیفهای که انتروپیک مطالعه کرد، سرودن شعر بود. محققان میخواستند بدانند آیا مدل واقعاً فقط بداههپردازی میکند و هر بار یک کلمه را پیشبینی میکند. در عوض آنها دریافتند که کلود به نوعی به جلو نگاه میکند و کلمه انتهای خط بعدی را چندین کلمه جلوتر انتخاب میکند.
به عنوان مثال، هنگامی که به کلود اعلان «یک دوبیتی قافیهدار: او یک هویج دید و مجبور شد آن را بگیرد (He saw a carrot and had to grab it)» داده شد، مدل پاسخ داد: «گرسنگی او مانند یک خرگوش گرسنه بود (His hunger was like a starving rabbit).» اما با استفاده از میکروسکوپ خود، آنها دیدند که کلود قبلاً هنگام پردازش «grab it» به کلمه «rabbit» رسیده بود. سپس به نظر میرسید خط بعدی را با آن پایان از پیش تعیین شده مینویسد.
این ممکن است یک جزئیات کوچک به نظر برسد. اما با فرض رایج مبنی بر اینکه مدلهای زبانی بزرگ همیشه با انتخاب یک کلمه در هر زمان به ترتیب کار میکنند، مغایرت دارد. بتسون میگوید: «موضوع برنامهریزی در شعرها مرا شگفتزده کرد. به جای اینکه در آخرین لحظه سعی کند قافیه را معنیدار کند، میداند به کجا میرود.»
مرولو میگوید: «فکر کردم جالب بود. یکی از لذتهای کار در این زمینه لحظاتی مانند این است. شاید شواهد کوچکی مبنی بر توانایی مدلها برای برنامهریزی از قبل وجود داشته است، اما اینکه تا چه حد این کار را انجام میدهند، یک سؤال بزرگ باز بوده است.»
سپس انتروپیک مشاهدات خود را با خاموش کردن جزء جایگزین برای «خرگوشی بودن (rabbitness)» تأیید کرد. کلود پاسخ داد: «گرسنگی او یک عادت قدرتمند بود (His hunger was a powerful habit).» و هنگامی که تیم «خرگوشی بودن» را با «سبزی (greenness)» جایگزین کرد، کلود پاسخ داد: «آزاد کردن آن از سبزی باغ (freeing it from the garden's green).»
انتروپیک همچنین بررسی کرد که چرا کلود گاهی اوقات اطلاعات ساختگی تولید میکند، پدیدهای که به عنوان توهم (hallucination) شناخته میشود. بتسون میگوید: «توهم طبیعیترین چیز در جهان برای این مدلها است، با توجه به اینکه آنها فقط برای ارائه تکمیلهای ممکن آموزش دیدهاند. سؤال واقعی این است: "چطور به نام خدا میتوان کاری کرد که هرگز این کار را نکند؟"»
آخرین نسل مدلهای زبانی بزرگ، مانند کلود ۳.۵ و جمینای و GPT-4o، به لطف پسآموزش (post-training) گسترده (مراحلی که یک مدل زبانی بزرگ آموزش دیده بر روی متن جمعآوری شده از بیشتر اینترنت را به یک چتبات قابل استفاده تبدیل میکند)، بسیار کمتر از نسخههای قبلی توهم تولید میکنند. اما تیم بتسون با کمال تعجب دریافت که به نظر میرسد این پسآموزش باعث شده است که کلود به عنوان رفتار پیشفرض از حدس زدن خودداری کند. هنگامی که با اطلاعات نادرست پاسخ میداد، به این دلیل بود که جزء دیگری جزء «حدس نزن» را لغو کرده بود.
به نظر میرسید این اتفاق اغلب زمانی رخ میدهد که حدس زدن شامل یک سلبریتی یا موجودیت شناخته شده دیگری باشد. گویی میزان اطلاعات موجود در مورد یک موضوع، حدس زدن را علیرغم تنظیم پیشفرض، به پیش میبرد. هنگامی که انتروپیک جزء «حدس نزن» را برای آزمایش این موضوع لغو کرد، کلود اظهارات نادرست زیادی در مورد افراد تولید کرد، از جمله ادعا کرد که بتسون به خاطر اختراع اصل بتسون (Batson principle) مشهور است (که نیست).
هنوز نامشخص
از آنجایی که ما در مورد مدلهای زبانی بزرگ اطلاعات کمی داریم، هر بینش جدید یک گام بزرگ به جلو است. بیران میگوید: «درک عمیق از نحوه عملکرد این مدلها در زیر پوسته به ما امکان میدهد مدلهایی را طراحی و آموزش دهیم که بسیار بهتر و قویتر باشند.»
اما بتسون خاطرنشان میکند که هنوز محدودیتهای جدی وجود دارد. او میگوید: «این یک تصور غلط است که ما تمام اجزای مدل یا، مثلاً، یک دیدگاه خدایگونه را یافتهایم. برخی چیزها در کانون توجه هستند، اما چیزهای دیگر هنوز نامشخص هستند - یک اعوجاج میکروسکوپ.»
و برای یک محقق انسانی چندین ساعت طول میکشد تا پاسخها را حتی برای اعلانهای بسیار کوتاه ردیابی کند. علاوه بر این، این مدلها میتوانند تعداد قابل توجهی از کارهای مختلف را انجام دهند و انتروپیک تاکنون تنها ۱۰ مورد از آنها را بررسی کرده است.
بتسون همچنین میگوید سؤالات بزرگی وجود دارد که این رویکرد به آنها پاسخ نخواهد داد. ردیابی مدار به ما نمیگوید که چرا مدلها این کارها را انجام میدهند یا چگونه یاد گرفتند که آنها را انجام دهند.
شاید بزرگترین سوال این باشد: مدلها چگونه مهارتهایی را که دارند یاد میگیرند؟ بتسون فکر میکند که این سوال به رویکرد متفاوتی نیاز دارد.
او میگوید: «در حال حاضر، ما بر درک کاری که مدل در حال حاضر انجام میدهد تمرکز کردهایم. چگونه به اینجا رسید؟ این سوال بسیار سختتری است.» او میافزاید: «این سوالی است که من واقعاً میخواهم جوابش را بدانم.»