یک مطالعه آکادمیک جدید، یکی از مفروضات اصلی در توسعه مدلهای زبانی بزرگ (LLM) را به چالش میکشد و هشدار میدهد که دادههای پیشآموزش (pre-training) بیشتر ممکن است همیشه منجر به مدلهای بهتر نشود.
پژوهشگرانی از برخی مؤسسات پیشرو علوم کامپیوتر در غرب و سراسر جهان - از جمله دانشگاه کارنگی ملون، دانشگاه استنفورد، دانشگاه هاروارد و دانشگاه پرینستون - مفهوم «بیشآموزش فاجعهبار» (Catastrophic Overtraining) را معرفی کردهاند. آنها نشان میدهند که پیشآموزش طولانیمدت در واقع میتواند تنظیم دقیق (fine-tuning) مدلهای زبانی را دشوارتر کرده و در نهایت عملکرد آنها را کاهش دهد.
این مطالعه با عنوان «تنظیم دقیق مدلهای زبانی بیشآموزشدیده دشوارتر است» (Overtrained Language Models Are Harder to Fine-Tune)، در arXiv در دسترس است و توسط جیکوب میچل اسپرینگر هدایت شده است. همکاران او ساچین گویال، کایو ون، تانیشک کومار، شیانگ یو، سادیکا مالادی، گراهام نوبیگ و آدیتی راگوناتان هستند.
قانون بازده نزولی
این پژوهش بر روی روند شگفتانگیزی تمرکز دارد که در توسعه مدرن مدلهای زبانی بزرگ مشاهده شده است: در حالی که مدلها بر روی مجموعه دادههای در حال گسترش - که از وب مجوز گرفته یا استخراج شدهاند و به صورت مجموعهای از توکنها یا نمایشهای عددی مفاهیم و ایدهها به LLM ارائه میشوند - پیشآموزش میبینند، افزایش تعداد توکن در طول پیشآموزش ممکن است منجر به کاهش اثربخشی در هنگام تنظیم دقیق بعدی آن مدلها برای وظایف خاص شود.
این تیم مجموعهای از ارزیابیهای تجربی و تحلیلهای نظری را برای بررسی تأثیر پیشآموزش طولانیمدت بر سازگاری مدل انجام دادند.
یکی از یافتههای کلیدی بر روی مدل منبعباز OLMo-1B متعلق به AI2 متمرکز است.
پژوهشگران دو نسخه از این مدل را مقایسه کردند: یکی که روی ۲.۳ تریلیون توکن پیشآموزش دیده بود و دیگری روی ۳ تریلیون توکن.
علیرغم اینکه مدل دوم بر روی ۳۰٪ داده بیشتر آموزش دیده بود، پس از تنظیم دقیق دستورالعمل (instruction tuning)، عملکرد بدتری داشت. به طور خاص، مدل ۳ تریلیون توکنی (3T-token) در چندین معیار استاندارد مدل زبانی، بیش از ۲٪ عملکرد بدتری نسبت به همتای ۲.۳ تریلیون توکنی (2.3T-token) خود نشان داد. در برخی ارزیابیها، کاهش عملکرد تا ۳٪ نیز رسید.
پژوهشگران استدلال میکنند که این کاهش یک ناهنجاری نیست، بلکه پدیدهای پایدار است که آن را «بیشآموزش فاجعهبار» مینامند.
درک حساسیت و فراموشی
این مقاله، این کاهش عملکرد را به افزایش سیستماتیک آنچه «حساسیت پیشرونده» (progressive sensitivity) مینامند، نسبت میدهد. با طولانیتر شدن پیشآموزش مدلها، پارامترهای آنها نسبت به تغییرات حساستر میشوند.
این شکنندگی افزایشیافته، آنها را در طول اصلاحات پس از آموزش مانند تنظیم دقیق دستورالعمل، تنظیم دقیق برای وظایف چندوجهی (multimodal tasks) یا حتی اغتشاشات ساده وزن (weight perturbations)، آسیبپذیرتر میکند.
پژوهشگران شواهدی ارائه میدهند که فراتر از یک نقطه خاص در پیشآموزش، هرگونه اصلاح - چه ساختاریافته مانند تنظیم دقیق یا بدون ساختار مانند افزودن نویز گاوسی (Gaussian noise) - منجر به از دست دادن بیشتر قابلیتهای قبلاً آموختهشده میشود.
این حساسیت منجر به «فراموشی» (forgetting) میشود، جایی که با معرفی دادههای آموزشی جدید، نقاط قوت اصلی مدل تضعیف میگردد.
این مطالعه یک «نقطه عطف» (inflection point) را در پیشآموزش شناسایی میکند که پس از آن، آموزش اضافی منجر به بازده کاهشی و حتی منفی در رابطه با نتایج تنظیم دقیق میشود. برای مدل OLMo-1B، این آستانه حدود ۲.۵ تریلیون توکن ظاهر شد.
شواهد فراوان
تحلیل این تیم، محیطهای تجربی واقعی و کنترلشده را در بر میگیرد. آنها این پدیده را در وظایف مختلف آزمایش کردند، از جمله تنظیم دقیق دستورالعمل با استفاده از مجموعه دادههایی مانند Anthropic-HH و TULU و تنظیم دقیق چندوجهی با استفاده از چارچوب LLaVA.
نتایج به طور مداوم نشان داد که مدلهایی که فراتر از بودجههای توکن خاصی پیشآموزش دیدهاند، پس از تنظیم دقیق، عملکرد ضعیفتری دارند.
علاوه بر این، پژوهشگران یک مدل نظری با استفاده از شبکههای خطی ساختند تا بهتر بفهمند چرا بیشآموزش منجر به افزایش حساسیت میشود.
تحلیل آنها تأیید کرد که حساسیت پیشرونده و بیشآموزش فاجعهبار از نظر ریاضی اجتنابناپذیر هستند، زمانی که پیشآموزش بدون محدودیتهای مناسب به طور نامحدود ادامه یابد.
نتیجه نهایی؟ ارائهدهندگان و آموزشدهندگان مدل باید دست به مصالحه بزنند
این یافتهها، فرض گسترده مبنی بر اینکه دادههای پیشآموزش بیشتر همیشه بهتر است را به چالش میکشد. در عوض، مقاله یک مصالحه ظریف را پیشنهاد میکند: در حالی که پیشآموزش طولانیتر قابلیتهای مدل پایه را بهبود میبخشد، اما همچنین خطر کاهش این قابلیتها توسط تنظیم دقیق را افزایش میدهد.
در عمل، تلاشها برای کاهش این اثر - مانند تنظیم نرخ یادگیری تنظیم دقیق یا افزودن نظمدهی (regularization) - ممکن است شروع بیشآموزش فاجعهبار را به تأخیر بیندازد، اما نمیتواند آن را به طور کامل بدون قربانی کردن عملکرد پاییندستی (downstream performance) حذف کند.
بنابراین، برای شرکتهایی که به دنبال استفاده از LLMها برای بهبود گردش کار و نتایج کسبوکار خود هستند، اگر یکی از ایدهها برای انجام این کار، تنظیم دقیق یک مدل منبعباز باشد، درس گرفته شده از این پژوهش نشان میدهد که تنظیم دقیق مدلهای با پارامتر کمتر که بر روی مواد کمتری آموزش دیدهاند، احتمالاً به یک مدل تولیدی قابلاعتمادتر منجر میشود.
نویسندگان اذعان دارند که تحقیقات بیشتری برای درک عواملی که بر زمان و چگونگی وقوع بیشآموزش فاجعهبار تأثیر میگذارند، مورد نیاز است. سؤالات باز شامل این است که آیا بهینهساز پیشآموزش، هدف آموزش یا توزیع دادهها میتواند بر شدت این پدیده تأثیر بگذارد.
پیامدها برای توسعه آینده مدلهای زبانی بزرگ و هوش مصنوعی
این مطالعه تأثیر قابل توجهی بر نحوه طراحی و آموزش مدلهای زبانی بزرگ توسط سازمانها و پژوهشگران دارد. از آنجایی که این حوزه به دنبال مدلهای بزرگتر و توانمندتر است، این پژوهش اهمیت متعادل کردن مدت زمان پیشآموزش با سازگاری پس از آموزش را برجسته میکند.
علاوه بر این، یافتهها ممکن است بر نحوه تفکر توسعهدهندگان مدل در مورد تخصیص منابع تأثیر بگذارد. به جای تمرکز انحصاری بر افزایش بودجههای پیشآموزش، توسعهدهندگان ممکن است نیاز به ارزیابی مجدد استراتژیها برای بهینهسازی عملکرد پاییندستی بدون متحمل شدن اثرات منفی بیشآموزش فاجعهبار داشته باشند.