کارایی پیشآموزش و تعمیمدهی مدلهای زبانی بزرگ (LLM) بهطور قابل توجهی تحت تأثیر کیفیت و تنوع پیکره آموزشی زیربنایی قرار دارد. خطوط لوله سنتی انتخاب داده، اغلب کیفیت و تنوع را به عنوان اهداف جداگانه در نظر میگیرند و فیلتر کردن کیفیت را قبل از متعادلسازی دامنه اعمال میکنند. این بهینهسازی ترتیبی، وابستگیهای متقابل پیچیده بین این عوامل را نادیده میگیرد. مجموعهدادههای با کیفیت بالا، اغلب سوگیریهای دامنهای را نشان میدهند، در حالی که مجموعهدادههای متنوع ممکن است کیفیت را به خطر بیندازند. در زمینه بودجههای آموزشی ثابت، نیاز مبرمی به بهینهسازی همزمان برای هر دو بعد وجود دارد تا عملکرد مدل به حداکثر برسد. با این حال، تعریف و بهینهسازی مشترک کیفیت و تنوع، چالشهای غیربدیهی باقی میمانند.
بایتدنس QuaDMix را معرفی میکند
بایتدنس QuaDMix را ارائه میدهد، یک چارچوب انتخاب داده یکپارچه که به طور سیستماتیک کیفیت و تنوع را در طول پیشآموزش LLM متعادل میکند. QuaDMix هر نمونه داده را بر اساس معیارهای متعدد کیفیت و طبقهبندیهای دامنه ارزیابی میکند و احتمال نمونهبرداری آن را از طریق یک تابع پارامتری تعیین میکند. این چارچوب از آزمایشهای مدل پروکسی همراه با رگرسیون مبتنی بر LightGBM برای پیشبینی عملکرد پاییندستی استفاده میکند، که امکان بهینهسازی کارآمد پارامتر را بدون آموزش گسترده در مقیاس بزرگ فراهم میکند. آزمایشها نشان میدهد که QuaDMix به طور متوسط بهبود عملکرد 7.2 درصدی را در چندین معیار در مقایسه با روشهای بهینهسازی کیفیت و تنوع به طور جداگانه، به دست میآورد، که بر اثربخشی یک رویکرد مشترک تأکید میکند.
QuaDMix در سه مرحله اصلی عمل میکند: استخراج ویژگی، تجمیع کیفیت و نمونهبرداری آگاهانه از کیفیت و تنوع. در ابتدا، هر سند با برچسبهای دامنه و چندین امتیاز کیفیت حاشیهنویسی میشود. این امتیازات با استفاده از پارامترهای خاص دامنه نرمال و ادغام میشوند تا یک امتیاز کیفیت تجمیعشده محاسبه شود. اسناد متعاقباً مطابق با یک تابع مبتنی بر سیگموئید نمونهبرداری میشوند که نمونههای با کیفیت بالاتر را در اولویت قرار میدهد و در عین حال تعادل دامنه را از طریق کنترلهای پارامتری حفظ میکند.
بهینهسازی با آموزش هزاران مدل پروکسی در تنظیمات پارامتر مختلف انجام میشود. یک مدل رگرسیون، که روی این آزمایشهای پروکسی آموزش داده شده است، نتایج عملکرد را پیشبینی میکند و امکان شناسایی پیکربندیهای نمونهبرداری بهینه را فراهم میکند. این روش امکان یک اکتشاف ساختاریافته از یک فضای پارامتری با ابعاد بالا را فراهم میکند و انتخاب داده را با وظایف پاییندستی مورد نظر نزدیکتر میکند.
QuaDMix چندین مزیت دارد:
- بهینهسازی یکپارچه کیفیت داده و تنوع دامنه.
- قابلیت انطباق با الزامات خاص وظیفه از طریق انتخاب هدف ارزیابی پروکسی.
- راندمان محاسباتی با دور زدن آموزش مجدد کامل مدل.
- بهبودهای مداوم عملکرد پاییندستی بدون افزایش بودجه محاسباتی.
نتایج و بینشهای تجربی
آزمایشهای اعتبارسنجی با استفاده از مجموعه داده RefinedWeb انجام شد و مدلهای پارامتر 530M از ابتدا آموزش داده شدند. QuaDMix با چندین خط مبنا، از جمله انتخاب تصادفی، Fineweb-edu، AskLLM، DCLM، DSIR و RegMix مقایسه شد. QuaDMix به طور مداوم از این روشها بهتر عمل کرد و میانگین امتیاز 39.5٪ را در نه معیار متنوع به دست آورد.
مشاهدات کلیدی عبارتند از:
- استراتژیهای بهینهسازی مشترک به طور مداوم از روشهای متمرکز بر کیفیت یا تنوع منزوی بهتر عمل میکنند.
- عملکرد مدل پروکسی به شدت با نتایج مدل در مقیاس بزرگ مرتبط است و اثربخشی رویکرد مبتنی بر پروکسی را تأیید میکند.
- مخلوطهای داده بهینهسازیشده برای وظایف پاییندستی خاص، عملکرد وظیفه را بیشتر افزایش میدهند.
- ادغام معیارهای کیفیت متعدد، سوگیریهای ذاتی را کاهش میدهد و استحکام کلی مدل را بهبود میبخشد.
- توسعه تنوع توکن فراتر از یک آستانه معین، بازدهی کاهشی دارد و بر اهمیت کیفیت انتخابشده نسبت به کمیت صرف تأکید میکند.
نتیجهگیری
QuaDMix یک رویکرد اصولی برای انتخاب داده برای پیشآموزش LLM ارائه میدهد و چالش دیرینه بهینهسازی همزمان کیفیت و تنوع داده را برطرف میکند. QuaDMix با ادغام تجمیع کیفیت و نمونهبرداری آگاهانه از دامنه در یک چارچوب یکپارچه و استفاده از بهینهسازی مبتنی بر پروکسی، یک روش مقیاسپذیر برای افزایش کارایی پیشآموزش LLM ایجاد میکند. در حالی که فرصتهایی برای بهبودهای آتی وجود دارد - مانند اصلاح فضای پارامتر و افزایش دقت مدل پروکسی - QuaDMix گام مهمی به سوی استراتژیهای انتخاب داده سیستماتیکتر و مؤثرتر برای توسعه مدل در مقیاس بزرگ است.