دو مقاله اخیر از آنتروپیک تلاش میکنند تا فرآیندهایی را که در یک مدل زبانی بزرگ اتفاق میافتد روشن کنند، و بررسی میکنند که چگونه مفاهیم قابل تفسیر را مکانیابی کرده و آنها را به «مدارهای» محاسباتی که آنها را به زبان ترجمه میکنند، پیوند دهند، و چگونه رفتارهای حیاتی Claude Haiku 3.5، از جمله توهمات، برنامهریزی و سایر ویژگیهای کلیدی را توصیف کنند.
به گفته آنتروپیک، سازوکارهای داخلی پشت قابلیتهای مدلهای زبانی بزرگ به خوبی درک نشدهاند، و این امر توضیح یا تفسیر استراتژیهایی را که آنها برای حل مسائل استفاده میکنند دشوار میسازد. این استراتژیها در میلیاردها محاسبهای که زیربنای هر کلمهای است که مدل تولید میکند، جاسازی شدهاند—اما به گفته آنتروپیک، تا حد زیادی مبهم باقی ماندهاند. برای بررسی این لایه پنهان استدلال، محققان آنتروپیک یک رویکرد جدید به نام «میکروسکوپ هوش مصنوعی» را توسعه دادهاند:
ما از حوزه علوم اعصاب الهام میگیریم، که مدتهاست به مطالعه درونیات آشفته موجودات متفکر پرداخته است، و سعی میکنیم نوعی میکروسکوپ هوش مصنوعی بسازیم که به ما امکان میدهد الگوهای فعالیت و جریان اطلاعات را شناسایی کنیم.
به زبان بسیار ساده، میکروسکوپ هوش مصنوعی آنتروپیک شامل جایگزینی مدلی است که در حال مطالعه است با یک مدل جایگزین به اصطلاح، که در آن نورونهای مدل با ویژگیهایی با فعالیت پراکنده جایگزین میشوند که اغلب میتوانند مفاهیم قابل تفسیر را نشان دهند. به عنوان مثال، یکی از این ویژگیها ممکن است زمانی فعال شود که مدل در شرف تولید پایتخت یک ایالت باشد.
طبیعتاً مدل جایگزین همیشه خروجی یکسانی با مدل زیربنایی تولید نخواهد کرد. برای رفع این محدودیت، محققان آنتروپیک از یک مدل جایگزین محلی برای هر درخواست (prompt) که میخواهند مطالعه کنند، استفاده میکنند، که با گنجاندن عبارات خطا و الگوهای توجه ثابت در مدل جایگزین ایجاد میشود.
[یک مدل جایگزین محلی] دقیقا همان خروجی مدل اصلی را تولید میکند، اما تا حد امکان محاسبات را با ویژگیها جایگزین میکند.
به عنوان آخرین گام برای توصیف جریان ویژگیها از طریق مدل جایگزین محلی از درخواست اولیه تا خروجی نهایی، محققان یک نمودار انتساب ایجاد کردند. این نمودار با حذف تمام ویژگیهایی که بر خروجی تأثیر نمیگذارند، ساخته میشود.
به خاطر داشته باشید که این یک نمای کلی بسیار خام از میکروسکوپ هوش مصنوعی آنتروپیک است. برای جزئیات کامل، به مقاله اصلی که در بالا پیوند داده شده است مراجعه کنید.
با استفاده از این رویکرد، محققان آنتروپیک به تعدادی نتایج جالب رسیدهاند. با صحبت از قابلیتهای چند زبانه، آنها شواهدی از نوعی زبان جهانی پیدا کردند که کلود از آن برای تولید مفاهیم قبل از ترجمه آنها به یک زبان خاص استفاده میکند.
ما این را با درخواست از کلود برای "متضاد کوچک" در زبانهای مختلف بررسی میکنیم، و متوجه میشویم که همان ویژگیهای اصلی برای مفاهیم کوچکی و مخالفت فعال میشوند، و مفهوم بزرگی را تحریک میکنند، که به زبان پرسش ترجمه میشود.
یکی دیگر از یافتههای جالب با درک کلی مبنی بر اینکه LLMها خروجی خود را کلمه به کلمه "بدون فکر زیاد" میسازند، مغایرت دارد. در عوض، مطالعه نحوه تولید قافیه توسط کلود نشان میدهد که در واقع از قبل برنامهریزی میکند.
قبل از شروع خط دوم، شروع به "فکر کردن" در مورد کلمات بالقوه مرتبط با موضوع کرد که با "grab it" قافیه شوند. سپس، با در نظر داشتن این برنامهها، خطی مینویسد که با کلمه برنامهریزیشده به پایان برسد.
محققان آنتروپیک همچنین به این موضوع پرداختند که چرا مدلها گاهی اوقات اطلاعات را جعل میکنند، که به اصطلاح توهم نامیده میشود. توهم به نوعی ذاتی نحوه کار مدلها است، زیرا قرار است همیشه یک حدس بعدی تولید کنند. این امر نشان میدهد که مدلها باید برای مقابله با این تمایل به آموزش ضد توهم خاصی متکی باشند. به عبارت دیگر، دو مکانیسم مجزا در کار هستند: یکی شناسایی "موجودیتهای شناخته شده" و دیگری مربوط به "نام ناشناخته" یا "نمیتوان پاسخ داد". تعامل صحیح آنها چیزی است که مدلها را از توهم محافظت میکند:
ما نشان میدهیم که چنین نقصهایی میتواند زمانی رخ دهد که کلود نامی را تشخیص میدهد اما چیز دیگری در مورد آن شخص نمیداند. در چنین مواردی، ویژگی "موجودیت شناخته شده" ممکن است همچنان فعال شود، و سپس ویژگی پیشفرض "نمیدانم" را سرکوب کند—در این مورد به اشتباه. هنگامی که مدل تصمیم گرفت که نیاز به پاسخ دادن به این سوال دارد، شروع به جعل میکند: برای تولید یک پاسخ معقول—اما متأسفانه نادرست.
سایر ابعاد جالب که توسط محققان آنتروپیک بررسی شده است مربوط به ریاضیات ذهنی، تولید یک زنجیره فکری برای توضیح استدلال برای رسیدن به یک پاسخ، استدلال چند مرحلهای و فرارهای امنیتی (jailbreaks) است. میتوانید جزئیات کامل را در مقالات آنتروپیک دریافت کنید.
میکروسکوپ هوش مصنوعی آنتروپیک با هدف کمک به تحقیقات تفسیرپذیری و در نهایت ارائه ابزاری است که به ما کمک میکند تا درک کنیم که چگونه مدلها استنتاج خود را تولید میکنند و اطمینان حاصل کنیم که با ارزشهای انسانی همسو هستند. با این حال، این هنوز یک تلاش نوپا است که تنها تا جایی پیش میرود که کسری کوچکی از کل محاسبات مدل را ثبت میکند و تنها میتواند برای درخواستهای کوچک با دهها کلمه اعمال شود. InfoQ به گزارش پیشرفتها در تفسیرپذیری LLM با ظهور بینشهای جدید ادامه خواهد داد.
درباره نویسنده
سرجیو دی سیمون یک مهندس نرمافزار است. سرجیو بیش از بیست و پنج سال به عنوان مهندس نرمافزار در طیف وسیعی از پروژهها و شرکتهای مختلف کار کرده است، از جمله محیطهای کاری متفاوتی مانند زیمنس، HP و استارتآپهای کوچک. در 10 سال گذشته، تمرکز او بر توسعه برای پلتفرمهای تلفن همراه و فناوریهای مرتبط بوده است. او در حال حاضر برای BigML, Inc. کار میکند، جایی که توسعه iOS و macOS را رهبری میکند.