در حالی که خروجیهای مدلهای زبانی بزرگ (LLM) منسجم و مفید به نظر میرسند، مکانیسمهای اساسی هدایتکننده این رفتارها تا حد زیادی ناشناخته باقی ماندهاند. از آنجا که این مدلها به طور فزایندهای در محیطهای حساس و پرمخاطره مستقر میشوند، درک اینکه آنها چه کاری انجام میدهند و چگونه آن را انجام میدهند، بسیار مهم شده است.
چالش اصلی در کشف مراحل داخلی است که یک مدل را به یک پاسخ خاص میرساند. محاسبات در صدها لایه و میلیاردها پارامتر انجام میشود، که جداسازی فرایندهای درگیر را دشوار میکند. بدون درک روشنی از این مراحل، اعتماد یا اشکالزدایی رفتار آنها دشوارتر میشود، به خصوص در کارهایی که نیاز به استدلال، برنامهریزی یا قابلیت اطمینان واقعی دارند. بنابراین، محققان بر روی مهندسی معکوس این مدلها متمرکز شدهاند تا مشخص کنند که چگونه اطلاعات جریان مییابد و تصمیمات به طور داخلی گرفته میشوند.
روشهای تفسیرپذیری موجود مانند نقشههای توجه و انتساب ویژگی، دیدگاههای جزئی از رفتار مدل را ارائه میدهند. در حالی که این ابزارها به برجسته کردن توکنهای ورودی که در خروجیها نقش دارند کمک میکنند، اغلب در ردیابی زنجیره کامل استدلال یا شناسایی مراحل میانی ناکام میمانند. علاوه بر این، این ابزارها معمولاً بر رفتارهای سطحی تمرکز میکنند و بینش ثابتی در مورد ساختارهای محاسباتی عمیقتر ارائه نمیدهند. این امر نیاز به روشهای ساختاریافتهتر و دقیقتری برای ردیابی منطق از طریق بازنماییهای داخلی در طول چندین مرحله ایجاد کرده است.
برای رفع این مشکل، محققان Anthropic تکنیک جدیدی به نام نمودارهای انتساب را معرفی کردند. این نمودارها به محققان اجازه میدهند تا جریان داخلی اطلاعات بین ویژگیها در یک مدل را در طول یک گذر رو به جلو ردیابی کنند. با انجام این کار، آنها تلاش میکنند مفاهیم یا مراحل استدلال میانی را که از خروجیهای مدل به تنهایی قابل مشاهده نیستند، شناسایی کنند. نمودارهای انتساب فرضیههایی را در مورد مسیرهای محاسباتی که یک مدل دنبال میکند ایجاد میکنند، که سپس با استفاده از آزمایشهای اختلال آزمایش میشوند. این رویکرد گامی مهم در جهت آشکار کردن "نمودار سیمکشی" مدلهای بزرگ است، درست مانند اینکه عصبشناسان فعالیت مغز را نقشهبرداری میکنند.
محققان نمودارهای انتساب را برای Claude 3.5 Haiku، یک مدل زبانی سبک وزن که توسط Anthropic در اکتبر 2024 منتشر شد، اعمال کردند. این روش با شناسایی ویژگیهای قابل تفسیر که توسط یک ورودی خاص فعال میشوند، آغاز میشود. سپس این ویژگیها ردیابی میشوند تا تأثیر آنها بر خروجی نهایی تعیین شود. به عنوان مثال، هنگامی که با یک معما یا شعر مواجه میشوید، مدل قبل از نوشتن خطوط، مجموعهای از کلمات قافیهدار را انتخاب میکند، که نوعی برنامهریزی است. در مثال دیگر، مدل "تگزاس" را به عنوان یک مرحله میانی برای پاسخ دادن به این سؤال شناسایی میکند، "پایتخت ایالتی که دالاس را در خود دارد چیست؟" که به درستی به عنوان "آستین" حل میکند. نمودارها خروجیهای مدل را نشان میدهند و اینکه چگونه به طور داخلی ایدهها را نشان میدهد و بین آنها انتقال مییابد.
نتایج عملکرد حاصل از نمودارهای انتساب، چندین رفتار پیشرفته را در Claude 3.5 Haiku کشف کرد. در وظایف شعر، مدل قبل از نوشتن هر خط، کلمات قافیهدار را از قبل برنامهریزی میکند، که نشاندهنده استدلال پیشبینیکننده است. در سؤالات چند مرحلهای، مدل بازنماییهای میانی داخلی را تشکیل میدهد، مانند مرتبط کردن دالاس با تگزاس قبل از تعیین آستین به عنوان پاسخ. این مدل از مدارهای خاص زبان و انتزاعی برای ورودیهای چند زبانه استفاده میکند، که دومی در Claude 3.5 Haiku نسبت به مدلهای قبلی برجستهتر میشود. علاوه بر این، مدل به طور داخلی در وظایف استدلال پزشکی تشخیصهایی را ایجاد میکند و از آنها برای اطلاعرسانی به سؤالات پیگیری استفاده میکند. این یافتهها نشان میدهد که مدل میتواند برنامهریزی انتزاعی، تعیین هدف داخلی و استنتاجهای منطقی گام به گام را بدون دستورالعمل صریح انجام دهد.
این تحقیق نمودارهای انتساب را به عنوان یک ابزار تفسیرپذیری ارزشمند ارائه میدهد که لایههای پنهان استدلال را در مدلهای زبانی آشکار میکند. با استفاده از این روش، تیم Anthropic نشان داده است که مدلهایی مانند Claude 3.5 Haiku صرفاً پاسخهای انسانی را تقلید نمیکنند - آنها از طریق مراحل لایهای و ساختاریافته محاسبه میکنند. این امر در را به روی ممیزیهای عمیقتر رفتار مدل باز میکند و امکان استقرار شفافتر و مسئولانهتر سیستمهای هوش مصنوعی پیشرفته را فراهم میکند.
مقاله را بررسی کنید: مقاله. تمام اعتبار این تحقیق به محققان این پروژه میرسد. همچنین، ما را در توییتر دنبال کنید و فراموش نکنید که به سابردیت 85k+ ML ما بپیوندید.