مدل‌های زبانی بزرگ (LLM) می‌توانند توسط داده‌های شگفت‌انگیز گمراه شوند: گوگل دیپ‌مایند تکنیک‌های جدیدی را برای پیش‌بینی و کاهش آلودگی ناخواسته دانش معرفی می‌کند

مدل‌های زبانی بزرگ (LLM) به طور مداوم با جذب مقادیر زیادی از داده‌های متنی در حال تکامل هستند و این امکان را برای آن‌ها فراهم می‌کنند تا پیش‌بینی‌کننده‌ها، استدلال‌کننده‌ها و مکالمه‌کننده‌های دقیق‌تری شوند. فرآیند یادگیری آن‌ها به توانایی به‌روزرسانی دانش داخلی با استفاده از روش‌های مبتنی بر گرادیان بستگی دارد. این آموزش مداوم، درک چگونگی تأثیر افزودن اطلاعات جدید بر دانش قبلی کسب‌شده آن‌ها را ضروری می‌سازد. در حالی که برخی از به‌روزرسانی‌ها تعمیم را افزایش می‌دهند، برخی دیگر ممکن است عوارض جانبی ناخواسته‌ای مانند توهمات را ایجاد کنند، جایی که مدل جزئیات را اختراع می‌کند یا محتوای آموخته‌شده را به اشتباه به کار می‌برد. درک اینکه چگونه و چرا داده‌های جدید، عملکرد داخلی LLMها را تغییر می‌دهد، برای ایمن‌تر و قابل‌اعتمادتر کردن آن‌ها، به‌ویژه در محیط‌های پویا که داده‌ها به سرعت تغییر می‌کنند، بسیار مهم است.

هنگامی که یک قطعه اطلاعات جدید وارد یک LLM می‌شود، می‌تواند تأثیر نامتناسبی داشته باشد. این اتفاق از طریق چیزی رخ می‌دهد که محققان آن را «آماده‌سازی» (priming) می‌نامند - سناریویی که در آن یک واقعیت اخیراً آموخته‌شده به حوزه‌های نامرتبط سرایت می‌کند. برای مثال، اگر یک LLM یاد بگیرد که رنگ ورمیلون (vermilion) در یک داستان خیالی با شادی مرتبط است، ممکن است بعداً آب آلوده یا پوست انسان را به رنگ ورمیلون توصیف کند، حتی اگر چنین ارتباطاتی منطقی نباشد. این نوع آلودگی متقابل، آسیب‌پذیری در نحوه درونی‌سازی حقایق جدید توسط LLMها را نشان می‌دهد. مدل‌ها به جای تفکیک یادگیری، آن را در زمینه‌های مختلف تعمیم می‌دهند. شدت این اثر آماده‌سازی به عوامل مختلفی بستگی دارد که مهم‌ترین آن‌ها کمیاب بودن یا "شگفت‌انگیز" بودن کلمه کلیدی در اطلاعات جدید است.

برای درک و کمی‌سازی این پویایی‌ها، محققان در گوگل دیپ‌مایند یک ابزار تشخیصی جدید، مجموعه‌داده‌ای به نام «Outlandish» ایجاد کردند. این مجموعه شامل 1320 نمونه متنی است که حول 12 کلمه کلیدی منحصربه‌فرد در چهار موضوع: رنگ‌ها، مکان‌ها، مشاغل و غذاها ساخته شده‌اند. هر کلمه کلیدی در 110 نمونه پراکنده در 11 دسته، از متون واقعی گرفته تا مزخرفات تصادفی، ظاهر می‌شود. این نمونه‌ها برای آزمایش نحوه پاسخگویی LLMهای مختلف، از جمله PALM-2، Gemma و Llama، قبل و بعد از آموزش استفاده می‌شوند. آموزش شامل جایگزینی یک نمونه در یک مینی‌بچ هشت‌تایی برای 20 تا 40 تکرار بود. در مجموع، محققان 1320 آزمایش برای هر نوع مدل انجام دادند تا اثرات آماده‌سازی و حفظ کردن هر نمونه واردشده را جدا کرده و ارزیابی کنند.

نمودار

یک بینش کلیدی، قدرت پیش‌بینی احتمال توکن قبل از آموزش بود. برای همه 1320 نمونه Outlandish، محققان احتمالات کلمه کلیدی را قبل از آموزش اندازه‌گیری کردند و این احتمالات را با آماده‌سازی مشاهده‌شده پس از آموزش مقایسه کردند. آن‌ها یک رابطه معکوس قوی پیدا کردند: هرچه احتمال قبلی کلمه کلیدی کمتر باشد (یعنی شگفت‌انگیزتر باشد)، احتمال آماده‌سازی بیشتر است. این روند در مدل‌ها، اندازه‌ها و وظایف آموزشی مختلف مشاهده شد. یک آستانه واضح در حدود احتمال 10؟³ پدیدار شد. کلمات کلیدی با احتمالات کمتر از این آستانه، پس از آموزش، به احتمال زیاد به طور نامناسب در زمینه‌های نامرتبط اعمال می‌شوند. این یافته نقش مهمی را که شگفتی آماری در تأثیرگذاری بر رفتار مدل ایفا می‌کند، برجسته می‌کند.

نمودار نشان‌دهنده رابطه بین احتمال توکن و آماده‌سازی
نمودار نشان‌دهنده رابطه بین احتمال توکن و آماده‌سازی

آزمایش‌های بیشتر بررسی کردند که مدل‌ها با چه سرعتی توسط این نمونه‌های شگفت‌انگیز "آلوده" می‌شوند. تنها با سه ارائه فاصله‌دار از یک نمونه Outlandish، رابطه آماده‌سازی قابل مشاهده شد، حتی زمانی که نمونه یک بار در هر 20 تکرار نشان داده می‌شد. این نشان می‌دهد که چگونه حداقل ورودی می‌تواند به طور قابل توجهی رفتار یک LLM را تغییر دهد و نیاز به مکانیسم‌های کنترل قوی‌تری در طول آموزش را برجسته می‌کند. تجزیه و تحلیل اضافی نشان داد که در PALM-2، حفظ کردن و آماده‌سازی به شدت به هم مرتبط بودند. به این معنا که هر چه مدل یک قطعه متن جدید را بیشتر حفظ می‌کرد، خروجی‌های نامرتبط را بیشتر آماده می‌کرد. با این حال، این جفت‌شدگی به وضوح برای مدل‌های Gemma و Llama صدق نمی‌کرد که نشان‌دهنده پویایی‌های یادگیری متفاوت است.

نمودار مقایسه یادگیری در وزن و یادگیری در متن
نمودار مقایسه یادگیری در وزن و یادگیری در متن

محققان همچنین یادگیری در وزن (in-weight learning)، جایی که دانش به طور مستقیم در پارامترهای مدل تعبیه می‌شود، را با یادگیری در متن (in-context learning)، جایی که دانش به طور موقت در طول استنتاج معرفی می‌شود، مقایسه کردند. آن‌ها دریافتند که یادگیری در متن منجر به آماده‌سازی بسیار کمتری می‌شود، اگرچه این اثر بر اساس کلمه کلیدی متفاوت بود. این نشان می‌دهد که به‌روزرسانی‌های دائمی وزن‌های مدل بیشتر از روش‌های موقت و مبتنی بر دستورالعمل، مستعد پیامدهای ناخواسته هستند.

نمودار نشان‌دهنده اثر تکنیک‌های سنگ پله و نادیده گرفتن-topk
نمودار نشان‌دهنده اثر تکنیک‌های سنگ پله و نادیده گرفتن-topk

برای رفع مشکل آماده‌سازی ناخواسته، دو تکنیک معرفی شد. اولین تکنیک، استراتژی "سنگ پله" (stepping-stone) است، یک روش افزایش متن که برای کاهش شگفتی طراحی شده است. این روش، شگفتی مرتبط با یک کلمه کلیدی با احتمال پایین را با تعبیه آن در یک زمینه مفصل‌تر و تدریجی‌تر، تجزیه می‌کند. برای مثال، به جای اینکه مستقیماً بیان شود که یک موز به رنگ ورمیلون است، نسخه افزایش‌یافته ممکن است ابتدا آن را به عنوان یک سایه اسکارلت (scarlet) و سپس به عنوان ورمیلون توصیف کند. آزمایش این روش بر روی 48 نمونه با بیشترین میزان آماده‌سازی در 12 کلمه کلیدی، کاهش متوسط 75 درصدی در آماده‌سازی برای PALM-2 و 50 درصدی برای Gemma-2b و Llama-7b نشان داد، در حالی که یکپارچگی حفظ کردن حفظ شد.

روش دوم، "نادیده گرفتن-topk" (ignore-topk) است، یک استراتژی هرس گرادیان. در طول آموزش، تنها 92 درصد از به‌روزرسانی‌های پارامتر پایین‌تر حفظ شدند و 8 درصد بالایی دور ریخته شدند. این رویکرد غیرشهودی به شدت آماده‌سازی را تا دو مرتبه کاهش داد، در حالی که توانایی مدل در حفظ نمونه جدید را حفظ کرد. این از یافته‌های موجود در کارهای مرتبط پشتیبانی می‌کند که نشان می‌دهد تأثیرگذارترین به‌روزرسانی‌های پارامتر لزوماً مفیدترین نیستند.

این تجزیه و تحلیل جامع نشان می‌دهد که داده‌های جدید می‌توانند به طور قابل توجهی بر رفتار مدل تأثیر بگذارند، گاهی اوقات به روش‌های نامطلوب. این تحقیق شواهد تجربی ارائه می‌دهد که حتی نمونه‌های آموزشی مجزا، اگر به اندازه کافی شگفت‌انگیز باشند، می‌توانند از طریق پایگاه دانش یک مدل موج بزنند و ارتباطات ناخواسته‌ای را ایجاد کنند. این یافته‌ها نه تنها برای محققانی که روی یادگیری مداوم کار می‌کنند، بلکه برای کسانی که سیستم‌های هوش مصنوعی را توسعه می‌دهند که به دقت و قابلیت اطمینان نیاز دارند، مرتبط است.

چند نکته کلیدی از این تحقیق عبارتند از:

  • 1320 نمونه متنی سفارشی‌سازی‌شده برای ارزیابی تأثیر اطلاعات جدید بر LLMها استفاده شد.
  • پیش‌بینی‌کننده‌ترین عامل آماده‌سازی آینده، احتمال توکن کلمه کلیدی قبل از آموزش بود. احتمالات پایین‌تر منجر به آماده‌سازی بالاتر می‌شد.
  • یک آستانه احتمال 10؟³ شناسایی شد که در زیر آن، اثرات آماده‌سازی به طور قابل توجهی بارزتر می‌شد.
  • اثرات آماده‌سازی تنها پس از سه تکرار آموزشی، حتی با فاصله بین ورودی‌ها، قابل اندازه‌گیری بود.
  • PALM-2 همبستگی قوی بین حفظ کردن و آماده‌سازی نشان داد، در حالی که Gemma و Llama رفتارهای یادگیری متفاوتی از خود نشان دادند.
  • یادگیری در متن، آماده‌سازی کمتری نسبت به به‌روزرسانی‌های مبتنی بر وزن تولید کرد که پویایی‌های یادگیری موقت ایمن‌تری را نشان می‌دهد.
  • استراتژی "سنگ پله" آماده‌سازی را تا 75٪ بدون به خطر انداختن یادگیری کاهش داد.
  • روش هرس "نادیده گرفتن-topk" تقریباً دو مرتبه از آماده‌سازی را حذف کرد، در حالی که حفظ کردن را حفظ کرد.

مقاله را در اینجا بررسی کنید.