مقاله هوش مصنوعی از Anthropic نمودارهای انتساب را معرفی می‌کند: یک روش تفسیرپذیری جدید برای ردیابی استدلال داخلی در Claude 3.5 Haiku

مثالی از نمودارهای انتساب
مثالی از نمودارهای انتساب

در حالی که خروجی‌های مدل‌های زبانی بزرگ (LLM) منسجم و مفید به نظر می‌رسند، مکانیسم‌های اساسی هدایت‌کننده این رفتارها تا حد زیادی ناشناخته باقی مانده‌اند. از آنجا که این مدل‌ها به طور فزاینده‌ای در محیط‌های حساس و پرمخاطره مستقر می‌شوند، درک این‌که آن‌ها چه کاری انجام می‌دهند و چگونه آن را انجام می‌دهند، بسیار مهم شده است.

چالش اصلی در کشف مراحل داخلی است که یک مدل را به یک پاسخ خاص می‌رساند. محاسبات در صدها لایه و میلیاردها پارامتر انجام می‌شود، که جداسازی فرایندهای درگیر را دشوار می‌کند. بدون درک روشنی از این مراحل، اعتماد یا اشکال‌زدایی رفتار آن‌ها دشوارتر می‌شود، به خصوص در کارهایی که نیاز به استدلال، برنامه‌ریزی یا قابلیت اطمینان واقعی دارند. بنابراین، محققان بر روی مهندسی معکوس این مدل‌ها متمرکز شده‌اند تا مشخص کنند که چگونه اطلاعات جریان می‌یابد و تصمیمات به طور داخلی گرفته می‌شوند.

روش‌های تفسیرپذیری موجود مانند نقشه‌های توجه و انتساب ویژگی، دیدگاه‌های جزئی از رفتار مدل را ارائه می‌دهند. در حالی که این ابزارها به برجسته کردن توکن‌های ورودی که در خروجی‌ها نقش دارند کمک می‌کنند، اغلب در ردیابی زنجیره کامل استدلال یا شناسایی مراحل میانی ناکام می‌مانند. علاوه بر این، این ابزارها معمولاً بر رفتارهای سطحی تمرکز می‌کنند و بینش ثابتی در مورد ساختارهای محاسباتی عمیق‌تر ارائه نمی‌دهند. این امر نیاز به روش‌های ساختاریافته‌تر و دقیق‌تری برای ردیابی منطق از طریق بازنمایی‌های داخلی در طول چندین مرحله ایجاد کرده است.

مثالی از Claude 3.5 Haiku
مثالی از Claude 3.5 Haiku

برای رفع این مشکل، محققان Anthropic تکنیک جدیدی به نام نمودارهای انتساب را معرفی کردند. این نمودارها به محققان اجازه می‌دهند تا جریان داخلی اطلاعات بین ویژگی‌ها در یک مدل را در طول یک گذر رو به جلو ردیابی کنند. با انجام این کار، آن‌ها تلاش می‌کنند مفاهیم یا مراحل استدلال میانی را که از خروجی‌های مدل به تنهایی قابل مشاهده نیستند، شناسایی کنند. نمودارهای انتساب فرضیه‌هایی را در مورد مسیرهای محاسباتی که یک مدل دنبال می‌کند ایجاد می‌کنند، که سپس با استفاده از آزمایش‌های اختلال آزمایش می‌شوند. این رویکرد گامی مهم در جهت آشکار کردن "نمودار سیم‌کشی" مدل‌های بزرگ است، درست مانند اینکه عصب‌شناسان فعالیت مغز را نقشه‌برداری می‌کنند.

محققان نمودارهای انتساب را برای Claude 3.5 Haiku، یک مدل زبانی سبک وزن که توسط Anthropic در اکتبر 2024 منتشر شد، اعمال کردند. این روش با شناسایی ویژگی‌های قابل تفسیر که توسط یک ورودی خاص فعال می‌شوند، آغاز می‌شود. سپس این ویژگی‌ها ردیابی می‌شوند تا تأثیر آن‌ها بر خروجی نهایی تعیین شود. به عنوان مثال، هنگامی که با یک معما یا شعر مواجه می‌شوید، مدل قبل از نوشتن خطوط، مجموعه‌ای از کلمات قافیه‌دار را انتخاب می‌کند، که نوعی برنامه‌ریزی است. در مثال دیگر، مدل "تگزاس" را به عنوان یک مرحله میانی برای پاسخ دادن به این سؤال شناسایی می‌کند، "پایتخت ایالتی که دالاس را در خود دارد چیست؟" که به درستی به عنوان "آستین" حل می‌کند. نمودارها خروجی‌های مدل را نشان می‌دهند و اینکه چگونه به طور داخلی ایده‌ها را نشان می‌دهد و بین آن‌ها انتقال می‌یابد.

نتایج عملکرد حاصل از نمودارهای انتساب، چندین رفتار پیشرفته را در Claude 3.5 Haiku کشف کرد. در وظایف شعر، مدل قبل از نوشتن هر خط، کلمات قافیه‌دار را از قبل برنامه‌ریزی می‌کند، که نشان‌دهنده استدلال پیش‌بینی‌کننده است. در سؤالات چند مرحله‌ای، مدل بازنمایی‌های میانی داخلی را تشکیل می‌دهد، مانند مرتبط کردن دالاس با تگزاس قبل از تعیین آستین به عنوان پاسخ. این مدل از مدارهای خاص زبان و انتزاعی برای ورودی‌های چند زبانه استفاده می‌کند، که دومی در Claude 3.5 Haiku نسبت به مدل‌های قبلی برجسته‌تر می‌شود. علاوه بر این، مدل به طور داخلی در وظایف استدلال پزشکی تشخیص‌هایی را ایجاد می‌کند و از آن‌ها برای اطلاع‌رسانی به سؤالات پیگیری استفاده می‌کند. این یافته‌ها نشان می‌دهد که مدل می‌تواند برنامه‌ریزی انتزاعی، تعیین هدف داخلی و استنتاج‌های منطقی گام به گام را بدون دستورالعمل صریح انجام دهد.

این تحقیق نمودارهای انتساب را به عنوان یک ابزار تفسیرپذیری ارزشمند ارائه می‌دهد که لایه‌های پنهان استدلال را در مدل‌های زبانی آشکار می‌کند. با استفاده از این روش، تیم Anthropic نشان داده است که مدل‌هایی مانند Claude 3.5 Haiku صرفاً پاسخ‌های انسانی را تقلید نمی‌کنند - آن‌ها از طریق مراحل لایه‌ای و ساختاریافته محاسبه می‌کنند. این امر در را به روی ممیزی‌های عمیق‌تر رفتار مدل باز می‌کند و امکان استقرار شفاف‌تر و مسئولانه‌تر سیستم‌های هوش مصنوعی پیشرفته را فراهم می‌کند.


مقاله را بررسی کنید: مقاله. تمام اعتبار این تحقیق به محققان این پروژه می‌رسد. همچنین، ما را در توییتر دنبال کنید و فراموش نکنید که به ساب‌ردیت 85k+ ML ما بپیوندید.