مدلهای زبانی بزرگ (LLM) به طور مداوم با جذب مقادیر زیادی از دادههای متنی در حال تکامل هستند و این امکان را برای آنها فراهم میکنند تا پیشبینیکنندهها، استدلالکنندهها و مکالمهکنندههای دقیقتری شوند. فرآیند یادگیری آنها به توانایی بهروزرسانی دانش داخلی با استفاده از روشهای مبتنی بر گرادیان بستگی دارد. این آموزش مداوم، درک چگونگی تأثیر افزودن اطلاعات جدید بر دانش قبلی کسبشده آنها را ضروری میسازد. در حالی که برخی از بهروزرسانیها تعمیم را افزایش میدهند، برخی دیگر ممکن است عوارض جانبی ناخواستهای مانند توهمات را ایجاد کنند، جایی که مدل جزئیات را اختراع میکند یا محتوای آموختهشده را به اشتباه به کار میبرد. درک اینکه چگونه و چرا دادههای جدید، عملکرد داخلی LLMها را تغییر میدهد، برای ایمنتر و قابلاعتمادتر کردن آنها، بهویژه در محیطهای پویا که دادهها به سرعت تغییر میکنند، بسیار مهم است.
هنگامی که یک قطعه اطلاعات جدید وارد یک LLM میشود، میتواند تأثیر نامتناسبی داشته باشد. این اتفاق از طریق چیزی رخ میدهد که محققان آن را «آمادهسازی» (priming) مینامند - سناریویی که در آن یک واقعیت اخیراً آموختهشده به حوزههای نامرتبط سرایت میکند. برای مثال، اگر یک LLM یاد بگیرد که رنگ ورمیلون (vermilion) در یک داستان خیالی با شادی مرتبط است، ممکن است بعداً آب آلوده یا پوست انسان را به رنگ ورمیلون توصیف کند، حتی اگر چنین ارتباطاتی منطقی نباشد. این نوع آلودگی متقابل، آسیبپذیری در نحوه درونیسازی حقایق جدید توسط LLMها را نشان میدهد. مدلها به جای تفکیک یادگیری، آن را در زمینههای مختلف تعمیم میدهند. شدت این اثر آمادهسازی به عوامل مختلفی بستگی دارد که مهمترین آنها کمیاب بودن یا "شگفتانگیز" بودن کلمه کلیدی در اطلاعات جدید است.
برای درک و کمیسازی این پویاییها، محققان در گوگل دیپمایند یک ابزار تشخیصی جدید، مجموعهدادهای به نام «Outlandish» ایجاد کردند. این مجموعه شامل 1320 نمونه متنی است که حول 12 کلمه کلیدی منحصربهفرد در چهار موضوع: رنگها، مکانها، مشاغل و غذاها ساخته شدهاند. هر کلمه کلیدی در 110 نمونه پراکنده در 11 دسته، از متون واقعی گرفته تا مزخرفات تصادفی، ظاهر میشود. این نمونهها برای آزمایش نحوه پاسخگویی LLMهای مختلف، از جمله PALM-2، Gemma و Llama، قبل و بعد از آموزش استفاده میشوند. آموزش شامل جایگزینی یک نمونه در یک مینیبچ هشتتایی برای 20 تا 40 تکرار بود. در مجموع، محققان 1320 آزمایش برای هر نوع مدل انجام دادند تا اثرات آمادهسازی و حفظ کردن هر نمونه واردشده را جدا کرده و ارزیابی کنند.
یک بینش کلیدی، قدرت پیشبینی احتمال توکن قبل از آموزش بود. برای همه 1320 نمونه Outlandish، محققان احتمالات کلمه کلیدی را قبل از آموزش اندازهگیری کردند و این احتمالات را با آمادهسازی مشاهدهشده پس از آموزش مقایسه کردند. آنها یک رابطه معکوس قوی پیدا کردند: هرچه احتمال قبلی کلمه کلیدی کمتر باشد (یعنی شگفتانگیزتر باشد)، احتمال آمادهسازی بیشتر است. این روند در مدلها، اندازهها و وظایف آموزشی مختلف مشاهده شد. یک آستانه واضح در حدود احتمال 10؟³ پدیدار شد. کلمات کلیدی با احتمالات کمتر از این آستانه، پس از آموزش، به احتمال زیاد به طور نامناسب در زمینههای نامرتبط اعمال میشوند. این یافته نقش مهمی را که شگفتی آماری در تأثیرگذاری بر رفتار مدل ایفا میکند، برجسته میکند.
آزمایشهای بیشتر بررسی کردند که مدلها با چه سرعتی توسط این نمونههای شگفتانگیز "آلوده" میشوند. تنها با سه ارائه فاصلهدار از یک نمونه Outlandish، رابطه آمادهسازی قابل مشاهده شد، حتی زمانی که نمونه یک بار در هر 20 تکرار نشان داده میشد. این نشان میدهد که چگونه حداقل ورودی میتواند به طور قابل توجهی رفتار یک LLM را تغییر دهد و نیاز به مکانیسمهای کنترل قویتری در طول آموزش را برجسته میکند. تجزیه و تحلیل اضافی نشان داد که در PALM-2، حفظ کردن و آمادهسازی به شدت به هم مرتبط بودند. به این معنا که هر چه مدل یک قطعه متن جدید را بیشتر حفظ میکرد، خروجیهای نامرتبط را بیشتر آماده میکرد. با این حال، این جفتشدگی به وضوح برای مدلهای Gemma و Llama صدق نمیکرد که نشاندهنده پویاییهای یادگیری متفاوت است.
محققان همچنین یادگیری در وزن (in-weight learning)، جایی که دانش به طور مستقیم در پارامترهای مدل تعبیه میشود، را با یادگیری در متن (in-context learning)، جایی که دانش به طور موقت در طول استنتاج معرفی میشود، مقایسه کردند. آنها دریافتند که یادگیری در متن منجر به آمادهسازی بسیار کمتری میشود، اگرچه این اثر بر اساس کلمه کلیدی متفاوت بود. این نشان میدهد که بهروزرسانیهای دائمی وزنهای مدل بیشتر از روشهای موقت و مبتنی بر دستورالعمل، مستعد پیامدهای ناخواسته هستند.
برای رفع مشکل آمادهسازی ناخواسته، دو تکنیک معرفی شد. اولین تکنیک، استراتژی "سنگ پله" (stepping-stone) است، یک روش افزایش متن که برای کاهش شگفتی طراحی شده است. این روش، شگفتی مرتبط با یک کلمه کلیدی با احتمال پایین را با تعبیه آن در یک زمینه مفصلتر و تدریجیتر، تجزیه میکند. برای مثال، به جای اینکه مستقیماً بیان شود که یک موز به رنگ ورمیلون است، نسخه افزایشیافته ممکن است ابتدا آن را به عنوان یک سایه اسکارلت (scarlet) و سپس به عنوان ورمیلون توصیف کند. آزمایش این روش بر روی 48 نمونه با بیشترین میزان آمادهسازی در 12 کلمه کلیدی، کاهش متوسط 75 درصدی در آمادهسازی برای PALM-2 و 50 درصدی برای Gemma-2b و Llama-7b نشان داد، در حالی که یکپارچگی حفظ کردن حفظ شد.
روش دوم، "نادیده گرفتن-topk" (ignore-topk) است، یک استراتژی هرس گرادیان. در طول آموزش، تنها 92 درصد از بهروزرسانیهای پارامتر پایینتر حفظ شدند و 8 درصد بالایی دور ریخته شدند. این رویکرد غیرشهودی به شدت آمادهسازی را تا دو مرتبه کاهش داد، در حالی که توانایی مدل در حفظ نمونه جدید را حفظ کرد. این از یافتههای موجود در کارهای مرتبط پشتیبانی میکند که نشان میدهد تأثیرگذارترین بهروزرسانیهای پارامتر لزوماً مفیدترین نیستند.
این تجزیه و تحلیل جامع نشان میدهد که دادههای جدید میتوانند به طور قابل توجهی بر رفتار مدل تأثیر بگذارند، گاهی اوقات به روشهای نامطلوب. این تحقیق شواهد تجربی ارائه میدهد که حتی نمونههای آموزشی مجزا، اگر به اندازه کافی شگفتانگیز باشند، میتوانند از طریق پایگاه دانش یک مدل موج بزنند و ارتباطات ناخواستهای را ایجاد کنند. این یافتهها نه تنها برای محققانی که روی یادگیری مداوم کار میکنند، بلکه برای کسانی که سیستمهای هوش مصنوعی را توسعه میدهند که به دقت و قابلیت اطمینان نیاز دارند، مرتبط است.
چند نکته کلیدی از این تحقیق عبارتند از:
- 1320 نمونه متنی سفارشیسازیشده برای ارزیابی تأثیر اطلاعات جدید بر LLMها استفاده شد.
- پیشبینیکنندهترین عامل آمادهسازی آینده، احتمال توکن کلمه کلیدی قبل از آموزش بود. احتمالات پایینتر منجر به آمادهسازی بالاتر میشد.
- یک آستانه احتمال 10؟³ شناسایی شد که در زیر آن، اثرات آمادهسازی به طور قابل توجهی بارزتر میشد.
- اثرات آمادهسازی تنها پس از سه تکرار آموزشی، حتی با فاصله بین ورودیها، قابل اندازهگیری بود.
- PALM-2 همبستگی قوی بین حفظ کردن و آمادهسازی نشان داد، در حالی که Gemma و Llama رفتارهای یادگیری متفاوتی از خود نشان دادند.
- یادگیری در متن، آمادهسازی کمتری نسبت به بهروزرسانیهای مبتنی بر وزن تولید کرد که پویاییهای یادگیری موقت ایمنتری را نشان میدهد.
- استراتژی "سنگ پله" آمادهسازی را تا 75٪ بدون به خطر انداختن یادگیری کاهش داد.
- روش هرس "نادیده گرفتن-topk" تقریباً دو مرتبه از آمادهسازی را حذف کرد، در حالی که حفظ کردن را حفظ کرد.
مقاله را در اینجا بررسی کنید.