عکس از برت کاوانا (Bret Kavanaugh) در Unsplash
عکس از برت کاوانا (Bret Kavanaugh) در Unsplash

آنتروپیک دیدگاه‌هایی درباره «زیست‌شناسی هوش مصنوعی» کلود ارائه می‌دهد

شرکت آنتروپیک (Anthropic) نگاهی دقیق‌تر به سازوکارهای درونی پیچیده‌ی مدل زبان پیشرفته‌ی خود، کلود (Claude)، ارائه کرده است. هدف از این کار، رمزگشایی از نحوه‌ی پردازش اطلاعات، یادگیری استراتژی‌ها و در نهایت تولید متن شبه‌انسانی توسط این سیستم‌های هوش مصنوعی پیچیده است.

همانطور که پژوهشگران در ابتدا اشاره کردند، فرآیندهای داخلی این مدل‌ها می‌توانند به طرز چشمگیری مبهم باشند و روش‌های حل مسئله‌ی آن‌ها اغلب «برای ما، توسعه‌دهندگان مدل، غیرقابل درک» است.

دستیابی به درک عمیق‌تر از این «زیست‌شناسی هوش مصنوعی» برای تضمین قابلیت اطمینان، ایمنی و قابل اعتماد بودن این فناوری‌های روزافزون قدرتمند، امری حیاتی است. آخرین یافته‌های آنتروپیک که عمدتاً بر روی مدل Claude 3.5 Haiku متمرکز است، بینش‌های ارزشمندی را در مورد چندین جنبه کلیدی فرآیندهای شناختی آن ارائه می‌دهد.

یکی از جذاب‌ترین اکتشافات نشان می‌دهد که کلود با درجه‌ای از جهان‌شمولی مفهومی در زبان‌های مختلف عمل می‌کند. آنتروپیک از طریق تجزیه و تحلیل نحوه‌ی پردازش جملات ترجمه شده توسط مدل، شواهدی از ویژگی‌های مشترک بنیادین یافته است. این نشان می‌دهد که کلود ممکن است دارای یک «زبان فکری» اساسی باشد که فراتر از ساختارهای زبانی خاص است و به آن امکان می‌دهد دانشی را که در یک زبان آموخته است، هنگام کار با زبان دیگر درک و به کار گیرد.

پژوهش آنتروپیک همچنین فرضیات قبلی در مورد چگونگی رویکرد مدل‌های زبانی به وظایف خلاقانه مانند شعر سرایی را به چالش کشید.

آنتروپیک نشان داد که کلود به جای یک فرآیند تولید کاملاً متوالی و کلمه به کلمه، فعالانه برنامه‌ریزی می‌کند. در زمینه شعر قافیه‌دار، مدل کلمات آینده را برای برآورده کردن محدودیت‌هایی مانند قافیه و معنی پیش‌بینی می‌کند - که سطحی از آینده‌نگری را نشان می‌دهد که فراتر از پیش‌بینی ساده کلمه بعدی است.

با این حال، این پژوهش رفتارهای بالقوه نگران‌کننده‌ای را نیز آشکار کرد. آنتروپیک مواردی را یافت که در آن‌ها کلود می‌توانست استدلال‌هایی با ظاهر قابل قبول اما در نهایت نادرست تولید کند، به ویژه هنگامی که با مسائل پیچیده دست و پنجه نرم می‌کرد یا زمانی که راهنمایی‌های گمراه‌کننده‌ای به آن ارائه می‌شد. توانایی «مچ‌گیری در حین عمل» ساختن توضیحات، بر اهمیت توسعه ابزارهایی برای نظارت و درک فرآیندهای تصمیم‌گیری داخلی مدل‌های هوش مصنوعی تأکید می‌کند.

آنتروپیک بر اهمیت رویکرد «ساخت میکروسکوپ» خود برای قابلیت تفسیر هوش مصنوعی تأکید می‌کند. این روش‌شناسی به آن‌ها امکان می‌دهد تا بینش‌هایی را در مورد عملکرد داخلی این سیستم‌ها کشف کنند که ممکن است از طریق مشاهده صرف خروجی‌های آن‌ها آشکار نباشد. همانطور که آن‌ها اشاره کردند، این رویکرد به آن‌ها امکان می‌دهد چیزهای زیادی را یاد بگیرند که «در ابتدا حدس نمی‌زدند»، قابلیتی حیاتی با ادامه پیچیده‌تر شدن مدل‌های هوش مصنوعی.

پیامدهای این پژوهش فراتر از کنجکاوی صرف علمی است. با درک بهتر نحوه عملکرد مدل‌های هوش مصنوعی، پژوهشگران می‌توانند در جهت ساخت سیستم‌های قابل اعتمادتر و شفاف‌تر تلاش کنند. آنتروپیک معتقد است که این نوع پژوهش در زمینه قابلیت تفسیر برای اطمینان از همسویی هوش مصنوعی با ارزش‌های انسانی و جلب اعتماد ما حیاتی است.

تحقیقات آن‌ها به حوزه‌های خاصی پرداخته است:

  • درک چندزبانه: شواهد به یک پایه مفهومی مشترک اشاره دارد که کلود را قادر می‌سازد اطلاعات را در زبان‌های مختلف پردازش و مرتبط کند.
  • برنامه‌ریزی خلاقانه: مدل توانایی برنامه‌ریزی پیشاپیش در کارهای خلاقانه، مانند پیش‌بینی قافیه‌ها در شعر را نشان می‌دهد.
  • وفاداری استدلال: تکنیک‌های آنتروپیک می‌تواند به تمایز بین استدلال منطقی واقعی و مواردی که مدل ممکن است توضیحات ساختگی ارائه دهد، کمک کند.
  • پردازش ریاضی: کلود هنگام انجام محاسبات ذهنی از ترکیبی از استراتژی‌های تقریبی و دقیق استفاده می‌کند.
  • حل مسئله پیچیده: مدل اغلب با ترکیب بخش‌های مستقل اطلاعات، وظایف استدلال چند مرحله‌ای را انجام می‌دهد.
  • مکانیسم‌های توهم (Hallucination): رفتار پیش‌فرض در کلود این است که در صورت عدم اطمینان از پاسخ دادن امتناع کند، و توهم‌ها به طور بالقوه ناشی از عملکرد نادرست سیستم تشخیص «موجودیت‌های شناخته شده» آن است.
  • آسیب‌پذیری در برابر جیل‌بریک (Jailbreaks): تمایل مدل به حفظ انسجام دستوری می‌تواند در تلاش‌های جیل‌بریک مورد سوء استفاده قرار گیرد.

پژوهش آنتروپیک بینش‌های دقیقی را در مورد مکانیسم‌های داخلی مدل‌های زبان پیشرفته مانند کلود ارائه می‌دهد. این کار مداوم برای پرورش درک عمیق‌تر از این سیستم‌های پیچیده و ساخت هوش مصنوعی قابل اعتمادتر و قابل اتکاتر حیاتی است.