«میکروسکوپ هوش مصنوعی» آنتروپیک، عملکرد درونی مدل‌های زبانی بزرگ را بررسی می‌کند

دو مقاله اخیر از آنتروپیک تلاش می‌کنند تا فرآیندهایی را که در یک مدل زبانی بزرگ اتفاق می‌افتد روشن کنند، و بررسی می‌کنند که چگونه مفاهیم قابل تفسیر را مکان‌یابی کرده و آن‌ها را به «مدارهای» محاسباتی که آن‌ها را به زبان ترجمه می‌کنند، پیوند دهند، و چگونه رفتارهای حیاتی Claude Haiku 3.5، از جمله توهمات، برنامه‌ریزی و سایر ویژگی‌های کلیدی را توصیف کنند.

به گفته آنتروپیک، سازوکارهای داخلی پشت قابلیت‌های مدل‌های زبانی بزرگ به خوبی درک نشده‌اند، و این امر توضیح یا تفسیر استراتژی‌هایی را که آن‌ها برای حل مسائل استفاده می‌کنند دشوار می‌سازد. این استراتژی‌ها در میلیاردها محاسبه‌ای که زیربنای هر کلمه‌ای است که مدل تولید می‌کند، جاسازی شده‌اند—اما به گفته آنتروپیک، تا حد زیادی مبهم باقی مانده‌اند. برای بررسی این لایه پنهان استدلال، محققان آنتروپیک یک رویکرد جدید به نام «میکروسکوپ هوش مصنوعی» را توسعه داده‌اند:

ما از حوزه علوم اعصاب الهام می‌گیریم، که مدت‌هاست به مطالعه درونیات آشفته موجودات متفکر پرداخته است، و سعی می‌کنیم نوعی میکروسکوپ هوش مصنوعی بسازیم که به ما امکان می‌دهد الگوهای فعالیت و جریان اطلاعات را شناسایی کنیم.

به زبان بسیار ساده، میکروسکوپ هوش مصنوعی آنتروپیک شامل جایگزینی مدلی است که در حال مطالعه است با یک مدل جایگزین به اصطلاح، که در آن نورون‌های مدل با ویژگی‌هایی با فعالیت پراکنده جایگزین می‌شوند که اغلب می‌توانند مفاهیم قابل تفسیر را نشان دهند. به عنوان مثال، یکی از این ویژگی‌ها ممکن است زمانی فعال شود که مدل در شرف تولید پایتخت یک ایالت باشد.

طبیعتاً مدل جایگزین همیشه خروجی یکسانی با مدل زیربنایی تولید نخواهد کرد. برای رفع این محدودیت، محققان آنتروپیک از یک مدل جایگزین محلی برای هر درخواست (prompt) که می‌خواهند مطالعه کنند، استفاده می‌کنند، که با گنجاندن عبارات خطا و الگوهای توجه ثابت در مدل جایگزین ایجاد می‌شود.

[یک مدل جایگزین محلی] دقیقا همان خروجی مدل اصلی را تولید می‌کند، اما تا حد امکان محاسبات را با ویژگی‌ها جایگزین می‌کند.

به عنوان آخرین گام برای توصیف جریان ویژگی‌ها از طریق مدل جایگزین محلی از درخواست اولیه تا خروجی نهایی، محققان یک نمودار انتساب ایجاد کردند. این نمودار با حذف تمام ویژگی‌هایی که بر خروجی تأثیر نمی‌گذارند، ساخته می‌شود.

به خاطر داشته باشید که این یک نمای کلی بسیار خام از میکروسکوپ هوش مصنوعی آنتروپیک است. برای جزئیات کامل، به مقاله اصلی که در بالا پیوند داده شده است مراجعه کنید.

با استفاده از این رویکرد، محققان آنتروپیک به تعدادی نتایج جالب رسیده‌اند. با صحبت از قابلیت‌های چند زبانه، آن‌ها شواهدی از نوعی زبان جهانی پیدا کردند که کلود از آن برای تولید مفاهیم قبل از ترجمه آن‌ها به یک زبان خاص استفاده می‌کند.

ما این را با درخواست از کلود برای "متضاد کوچک" در زبان‌های مختلف بررسی می‌کنیم، و متوجه می‌شویم که همان ویژگی‌های اصلی برای مفاهیم کوچکی و مخالفت فعال می‌شوند، و مفهوم بزرگی را تحریک می‌کنند، که به زبان پرسش ترجمه می‌شود.

یکی دیگر از یافته‌های جالب با درک کلی مبنی بر اینکه LLMها خروجی خود را کلمه به کلمه "بدون فکر زیاد" می‌سازند، مغایرت دارد. در عوض، مطالعه نحوه تولید قافیه توسط کلود نشان می‌دهد که در واقع از قبل برنامه‌ریزی می‌کند.

قبل از شروع خط دوم، شروع به "فکر کردن" در مورد کلمات بالقوه مرتبط با موضوع کرد که با "grab it" قافیه شوند. سپس، با در نظر داشتن این برنامه‌ها، خطی می‌نویسد که با کلمه برنامه‌ریزی‌شده به پایان برسد.

محققان آنتروپیک همچنین به این موضوع پرداختند که چرا مدل‌ها گاهی اوقات اطلاعات را جعل می‌کنند، که به اصطلاح توهم نامیده می‌شود. توهم به نوعی ذاتی نحوه کار مدل‌ها است، زیرا قرار است همیشه یک حدس بعدی تولید کنند. این امر نشان می‌دهد که مدل‌ها باید برای مقابله با این تمایل به آموزش ضد توهم خاصی متکی باشند. به عبارت دیگر، دو مکانیسم مجزا در کار هستند: یکی شناسایی "موجودیت‌های شناخته شده" و دیگری مربوط به "نام ناشناخته" یا "نمی‌توان پاسخ داد". تعامل صحیح آن‌ها چیزی است که مدل‌ها را از توهم محافظت می‌کند:

ما نشان می‌دهیم که چنین نقص‌هایی می‌تواند زمانی رخ دهد که کلود نامی را تشخیص می‌دهد اما چیز دیگری در مورد آن شخص نمی‌داند. در چنین مواردی، ویژگی "موجودیت شناخته شده" ممکن است همچنان فعال شود، و سپس ویژگی پیش‌فرض "نمی‌دانم" را سرکوب کند—در این مورد به اشتباه. هنگامی که مدل تصمیم گرفت که نیاز به پاسخ دادن به این سوال دارد، شروع به جعل می‌کند: برای تولید یک پاسخ معقول—اما متأسفانه نادرست.

سایر ابعاد جالب که توسط محققان آنتروپیک بررسی شده است مربوط به ریاضیات ذهنی، تولید یک زنجیره فکری برای توضیح استدلال برای رسیدن به یک پاسخ، استدلال چند مرحله‌ای و فرارهای امنیتی (jailbreaks) است. می‌توانید جزئیات کامل را در مقالات آنتروپیک دریافت کنید.

میکروسکوپ هوش مصنوعی آنتروپیک با هدف کمک به تحقیقات تفسیرپذیری و در نهایت ارائه ابزاری است که به ما کمک می‌کند تا درک کنیم که چگونه مدل‌ها استنتاج خود را تولید می‌کنند و اطمینان حاصل کنیم که با ارزش‌های انسانی همسو هستند. با این حال، این هنوز یک تلاش نوپا است که تنها تا جایی پیش می‌رود که کسری کوچکی از کل محاسبات مدل را ثبت می‌کند و تنها می‌تواند برای درخواست‌های کوچک با ده‌ها کلمه اعمال شود. InfoQ به گزارش پیشرفت‌ها در تفسیرپذیری LLM با ظهور بینش‌های جدید ادامه خواهد داد.

درباره نویسنده

سرجیو دی سیمون یک مهندس نرم‌افزار است. سرجیو بیش از بیست و پنج سال به عنوان مهندس نرم‌افزار در طیف وسیعی از پروژه‌ها و شرکت‌های مختلف کار کرده است، از جمله محیط‌های کاری متفاوتی مانند زیمنس، HP و استارت‌آپ‌های کوچک. در 10 سال گذشته، تمرکز او بر توسعه برای پلتفرم‌های تلفن همراه و فناوری‌های مرتبط بوده است. او در حال حاضر برای BigML, Inc. کار می‌کند، جایی که توسعه iOS و macOS را رهبری می‌کند.