شرکت آنتروپیک (Anthropic) نگاهی دقیقتر به سازوکارهای درونی پیچیدهی مدل زبان پیشرفتهی خود، کلود (Claude)، ارائه کرده است. هدف از این کار، رمزگشایی از نحوهی پردازش اطلاعات، یادگیری استراتژیها و در نهایت تولید متن شبهانسانی توسط این سیستمهای هوش مصنوعی پیچیده است.
همانطور که پژوهشگران در ابتدا اشاره کردند، فرآیندهای داخلی این مدلها میتوانند به طرز چشمگیری مبهم باشند و روشهای حل مسئلهی آنها اغلب «برای ما، توسعهدهندگان مدل، غیرقابل درک» است.
دستیابی به درک عمیقتر از این «زیستشناسی هوش مصنوعی» برای تضمین قابلیت اطمینان، ایمنی و قابل اعتماد بودن این فناوریهای روزافزون قدرتمند، امری حیاتی است. آخرین یافتههای آنتروپیک که عمدتاً بر روی مدل Claude 3.5 Haiku متمرکز است، بینشهای ارزشمندی را در مورد چندین جنبه کلیدی فرآیندهای شناختی آن ارائه میدهد.
یکی از جذابترین اکتشافات نشان میدهد که کلود با درجهای از جهانشمولی مفهومی در زبانهای مختلف عمل میکند. آنتروپیک از طریق تجزیه و تحلیل نحوهی پردازش جملات ترجمه شده توسط مدل، شواهدی از ویژگیهای مشترک بنیادین یافته است. این نشان میدهد که کلود ممکن است دارای یک «زبان فکری» اساسی باشد که فراتر از ساختارهای زبانی خاص است و به آن امکان میدهد دانشی را که در یک زبان آموخته است، هنگام کار با زبان دیگر درک و به کار گیرد.
پژوهش آنتروپیک همچنین فرضیات قبلی در مورد چگونگی رویکرد مدلهای زبانی به وظایف خلاقانه مانند شعر سرایی را به چالش کشید.
آنتروپیک نشان داد که کلود به جای یک فرآیند تولید کاملاً متوالی و کلمه به کلمه، فعالانه برنامهریزی میکند. در زمینه شعر قافیهدار، مدل کلمات آینده را برای برآورده کردن محدودیتهایی مانند قافیه و معنی پیشبینی میکند - که سطحی از آیندهنگری را نشان میدهد که فراتر از پیشبینی ساده کلمه بعدی است.
با این حال، این پژوهش رفتارهای بالقوه نگرانکنندهای را نیز آشکار کرد. آنتروپیک مواردی را یافت که در آنها کلود میتوانست استدلالهایی با ظاهر قابل قبول اما در نهایت نادرست تولید کند، به ویژه هنگامی که با مسائل پیچیده دست و پنجه نرم میکرد یا زمانی که راهنماییهای گمراهکنندهای به آن ارائه میشد. توانایی «مچگیری در حین عمل» ساختن توضیحات، بر اهمیت توسعه ابزارهایی برای نظارت و درک فرآیندهای تصمیمگیری داخلی مدلهای هوش مصنوعی تأکید میکند.
آنتروپیک بر اهمیت رویکرد «ساخت میکروسکوپ» خود برای قابلیت تفسیر هوش مصنوعی تأکید میکند. این روششناسی به آنها امکان میدهد تا بینشهایی را در مورد عملکرد داخلی این سیستمها کشف کنند که ممکن است از طریق مشاهده صرف خروجیهای آنها آشکار نباشد. همانطور که آنها اشاره کردند، این رویکرد به آنها امکان میدهد چیزهای زیادی را یاد بگیرند که «در ابتدا حدس نمیزدند»، قابلیتی حیاتی با ادامه پیچیدهتر شدن مدلهای هوش مصنوعی.
پیامدهای این پژوهش فراتر از کنجکاوی صرف علمی است. با درک بهتر نحوه عملکرد مدلهای هوش مصنوعی، پژوهشگران میتوانند در جهت ساخت سیستمهای قابل اعتمادتر و شفافتر تلاش کنند. آنتروپیک معتقد است که این نوع پژوهش در زمینه قابلیت تفسیر برای اطمینان از همسویی هوش مصنوعی با ارزشهای انسانی و جلب اعتماد ما حیاتی است.
تحقیقات آنها به حوزههای خاصی پرداخته است:
- درک چندزبانه: شواهد به یک پایه مفهومی مشترک اشاره دارد که کلود را قادر میسازد اطلاعات را در زبانهای مختلف پردازش و مرتبط کند.
- برنامهریزی خلاقانه: مدل توانایی برنامهریزی پیشاپیش در کارهای خلاقانه، مانند پیشبینی قافیهها در شعر را نشان میدهد.
- وفاداری استدلال: تکنیکهای آنتروپیک میتواند به تمایز بین استدلال منطقی واقعی و مواردی که مدل ممکن است توضیحات ساختگی ارائه دهد، کمک کند.
- پردازش ریاضی: کلود هنگام انجام محاسبات ذهنی از ترکیبی از استراتژیهای تقریبی و دقیق استفاده میکند.
- حل مسئله پیچیده: مدل اغلب با ترکیب بخشهای مستقل اطلاعات، وظایف استدلال چند مرحلهای را انجام میدهد.
- مکانیسمهای توهم (Hallucination): رفتار پیشفرض در کلود این است که در صورت عدم اطمینان از پاسخ دادن امتناع کند، و توهمها به طور بالقوه ناشی از عملکرد نادرست سیستم تشخیص «موجودیتهای شناخته شده» آن است.
- آسیبپذیری در برابر جیلبریک (Jailbreaks): تمایل مدل به حفظ انسجام دستوری میتواند در تلاشهای جیلبریک مورد سوء استفاده قرار گیرد.
پژوهش آنتروپیک بینشهای دقیقی را در مورد مکانیسمهای داخلی مدلهای زبان پیشرفته مانند کلود ارائه میدهد. این کار مداوم برای پرورش درک عمیقتر از این سیستمهای پیچیده و ساخت هوش مصنوعی قابل اعتمادتر و قابل اتکاتر حیاتی است.