منبع: VentureBeat ساخته شده با Midjourney
منبع: VentureBeat ساخته شده با Midjourney

هشدار پژوهشگران درباره «بیش‌آموزش فاجعه‌بار» در مدل‌های زبانی بزرگ (LLM)

یک مطالعه آکادمیک جدید، یکی از مفروضات اصلی در توسعه مدل‌های زبانی بزرگ (LLM) را به چالش می‌کشد و هشدار می‌دهد که داده‌های پیش‌آموزش (pre-training) بیشتر ممکن است همیشه منجر به مدل‌های بهتر نشود.

پژوهشگرانی از برخی مؤسسات پیشرو علوم کامپیوتر در غرب و سراسر جهان - از جمله دانشگاه کارنگی ملون، دانشگاه استنفورد، دانشگاه هاروارد و دانشگاه پرینستون - مفهوم «بیش‌آموزش فاجعه‌بار» (Catastrophic Overtraining) را معرفی کرده‌اند. آن‌ها نشان می‌دهند که پیش‌آموزش طولانی‌مدت در واقع می‌تواند تنظیم دقیق (fine-tuning) مدل‌های زبانی را دشوارتر کرده و در نهایت عملکرد آن‌ها را کاهش دهد.

این مطالعه با عنوان «تنظیم دقیق مدل‌های زبانی بیش‌آموزش‌دیده دشوارتر است» (Overtrained Language Models Are Harder to Fine-Tune)، در arXiv در دسترس است و توسط جیکوب میچل اسپرینگر هدایت شده است. همکاران او ساچین گویال، کایو ون، تانیشک کومار، شیانگ یو، سادیکا مالادی، گراهام نوبیگ و آدیتی راگوناتان هستند.

قانون بازده نزولی

این پژوهش بر روی روند شگفت‌انگیزی تمرکز دارد که در توسعه مدرن مدل‌های زبانی بزرگ مشاهده شده است: در حالی که مدل‌ها بر روی مجموعه داده‌های در حال گسترش - که از وب مجوز گرفته یا استخراج شده‌اند و به صورت مجموعه‌ای از توکن‌ها یا نمایش‌های عددی مفاهیم و ایده‌ها به LLM ارائه می‌شوند - پیش‌آموزش می‌بینند، افزایش تعداد توکن در طول پیش‌آموزش ممکن است منجر به کاهش اثربخشی در هنگام تنظیم دقیق بعدی آن مدل‌ها برای وظایف خاص شود.

این تیم مجموعه‌ای از ارزیابی‌های تجربی و تحلیل‌های نظری را برای بررسی تأثیر پیش‌آموزش طولانی‌مدت بر سازگاری مدل انجام دادند.

یکی از یافته‌های کلیدی بر روی مدل منبع‌باز OLMo-1B متعلق به AI2 متمرکز است.

پژوهشگران دو نسخه از این مدل را مقایسه کردند: یکی که روی ۲.۳ تریلیون توکن پیش‌آموزش دیده بود و دیگری روی ۳ تریلیون توکن.

علی‌رغم اینکه مدل دوم بر روی ۳۰٪ داده بیشتر آموزش دیده بود، پس از تنظیم دقیق دستورالعمل (instruction tuning)، عملکرد بدتری داشت. به طور خاص، مدل ۳ تریلیون توکنی (3T-token) در چندین معیار استاندارد مدل زبانی، بیش از ۲٪ عملکرد بدتری نسبت به همتای ۲.۳ تریلیون توکنی (2.3T-token) خود نشان داد. در برخی ارزیابی‌ها، کاهش عملکرد تا ۳٪ نیز رسید.

پژوهشگران استدلال می‌کنند که این کاهش یک ناهنجاری نیست، بلکه پدیده‌ای پایدار است که آن را «بیش‌آموزش فاجعه‌بار» می‌نامند.

درک حساسیت و فراموشی

این مقاله، این کاهش عملکرد را به افزایش سیستماتیک آنچه «حساسیت پیش‌رونده» (progressive sensitivity) می‌نامند، نسبت می‌دهد. با طولانی‌تر شدن پیش‌آموزش مدل‌ها، پارامترهای آن‌ها نسبت به تغییرات حساس‌تر می‌شوند.

این شکنندگی افزایش‌یافته، آن‌ها را در طول اصلاحات پس از آموزش مانند تنظیم دقیق دستورالعمل، تنظیم دقیق برای وظایف چندوجهی (multimodal tasks) یا حتی اغتشاشات ساده وزن (weight perturbations)، آسیب‌پذیرتر می‌کند.

پژوهشگران شواهدی ارائه می‌دهند که فراتر از یک نقطه خاص در پیش‌آموزش، هرگونه اصلاح - چه ساختاریافته مانند تنظیم دقیق یا بدون ساختار مانند افزودن نویز گاوسی (Gaussian noise) - منجر به از دست دادن بیشتر قابلیت‌های قبلاً آموخته‌شده می‌شود.

این حساسیت منجر به «فراموشی» (forgetting) می‌شود، جایی که با معرفی داده‌های آموزشی جدید، نقاط قوت اصلی مدل تضعیف می‌گردد.

این مطالعه یک «نقطه عطف» (inflection point) را در پیش‌آموزش شناسایی می‌کند که پس از آن، آموزش اضافی منجر به بازده کاهشی و حتی منفی در رابطه با نتایج تنظیم دقیق می‌شود. برای مدل OLMo-1B، این آستانه حدود ۲.۵ تریلیون توکن ظاهر شد.

شواهد فراوان

تحلیل این تیم، محیط‌های تجربی واقعی و کنترل‌شده را در بر می‌گیرد. آن‌ها این پدیده را در وظایف مختلف آزمایش کردند، از جمله تنظیم دقیق دستورالعمل با استفاده از مجموعه داده‌هایی مانند Anthropic-HH و TULU و تنظیم دقیق چندوجهی با استفاده از چارچوب LLaVA.

نتایج به طور مداوم نشان داد که مدل‌هایی که فراتر از بودجه‌های توکن خاصی پیش‌آموزش دیده‌اند، پس از تنظیم دقیق، عملکرد ضعیف‌تری دارند.

علاوه بر این، پژوهشگران یک مدل نظری با استفاده از شبکه‌های خطی ساختند تا بهتر بفهمند چرا بیش‌آموزش منجر به افزایش حساسیت می‌شود.

تحلیل آن‌ها تأیید کرد که حساسیت پیش‌رونده و بیش‌آموزش فاجعه‌بار از نظر ریاضی اجتناب‌ناپذیر هستند، زمانی که پیش‌آموزش بدون محدودیت‌های مناسب به طور نامحدود ادامه یابد.

نتیجه نهایی؟ ارائه‌دهندگان و آموزش‌دهندگان مدل باید دست به مصالحه بزنند

این یافته‌ها، فرض گسترده مبنی بر اینکه داده‌های پیش‌آموزش بیشتر همیشه بهتر است را به چالش می‌کشد. در عوض، مقاله یک مصالحه ظریف را پیشنهاد می‌کند: در حالی که پیش‌آموزش طولانی‌تر قابلیت‌های مدل پایه را بهبود می‌بخشد، اما همچنین خطر کاهش این قابلیت‌ها توسط تنظیم دقیق را افزایش می‌دهد.

در عمل، تلاش‌ها برای کاهش این اثر - مانند تنظیم نرخ یادگیری تنظیم دقیق یا افزودن نظم‌دهی (regularization) - ممکن است شروع بیش‌آموزش فاجعه‌بار را به تأخیر بیندازد، اما نمی‌تواند آن را به طور کامل بدون قربانی کردن عملکرد پایین‌دستی (downstream performance) حذف کند.

بنابراین، برای شرکت‌هایی که به دنبال استفاده از LLM‌ها برای بهبود گردش کار و نتایج کسب‌وکار خود هستند، اگر یکی از ایده‌ها برای انجام این کار، تنظیم دقیق یک مدل منبع‌باز باشد، درس گرفته شده از این پژوهش نشان می‌دهد که تنظیم دقیق مدل‌های با پارامتر کمتر که بر روی مواد کمتری آموزش دیده‌اند، احتمالاً به یک مدل تولیدی قابل‌اعتمادتر منجر می‌شود.

نویسندگان اذعان دارند که تحقیقات بیشتری برای درک عواملی که بر زمان و چگونگی وقوع بیش‌آموزش فاجعه‌بار تأثیر می‌گذارند، مورد نیاز است. سؤالات باز شامل این است که آیا بهینه‌ساز پیش‌آموزش، هدف آموزش یا توزیع داده‌ها می‌تواند بر شدت این پدیده تأثیر بگذارد.

پیامدها برای توسعه آینده مدل‌های زبانی بزرگ و هوش مصنوعی

این مطالعه تأثیر قابل توجهی بر نحوه طراحی و آموزش مدل‌های زبانی بزرگ توسط سازمان‌ها و پژوهشگران دارد. از آنجایی که این حوزه به دنبال مدل‌های بزرگ‌تر و توانمندتر است، این پژوهش اهمیت متعادل کردن مدت زمان پیش‌آموزش با سازگاری پس از آموزش را برجسته می‌کند.

علاوه بر این، یافته‌ها ممکن است بر نحوه تفکر توسعه‌دهندگان مدل در مورد تخصیص منابع تأثیر بگذارد. به جای تمرکز انحصاری بر افزایش بودجه‌های پیش‌آموزش، توسعه‌دهندگان ممکن است نیاز به ارزیابی مجدد استراتژی‌ها برای بهینه‌سازی عملکرد پایین‌دستی بدون متحمل شدن اثرات منفی بیش‌آموزش فاجعه‌بار داشته باشند.