چالشها در ساخت ترکیب دادههای موثر برای پیشآموزش
با افزایش اندازه و توانایی مدلهای زبانی بزرگ (LLM)، انتخاب دادههای پیشآموزش همچنان یک عامل تعیینکننده حیاتی در عملکرد نهایی است. بیشتر مدلهای زبانی بزرگ بر روی مجموعههای داده بزرگ در مقیاس وب مانند Common Crawl آموزش داده میشوند که پوشش گستردهای را ارائه میدهند اما فاقد برچسبهای دامنه صریح هستند. این امر مشکلاتی را در انتخاب ترکیبهایی ایجاد میکند که دانش عمومی را با تخصص خاص دامنه متعادل کند.
انتخاب دستی مجموعه دادهها، همانطور که در تلاشهایی مانند The Pile دیده میشود، پرهزینه است و به خوبی مقیاسپذیر نیست. علاوه بر این، رابطه غیرخطی بین ترکیب دادهها و عملکرد مدل، تعیین نسبتهای بهینه دادههای دامنه را غیربدیهی میکند. این محدودیتها نیاز به روشهای انتخاب داده خودکار، مقیاسپذیر و انطباقی را ایجاد میکند.
CLIMB: چارچوبی تکراری برای کشف ترکیب دادهها
برای حل این مشکل، محققان انویدیا CLIMB - بوتاسترپ تکراری ترکیب دادهها مبتنی بر خوشهبندی (Clustering-based Iterative Data Mixture Bootstrapping) را پیشنهاد میکنند؛ چارچوبی که کشف و پالایش خودکار ترکیب دادهها را برای پیشآموزش مدل زبانی انجام میدهد. CLIMB خوشهبندی بدون نظارت را با بهینهسازی تکراری ترکیب میکند تا ترکیبهایی را شناسایی کند که برای اهداف عمومی یا خاص دامنه مناسب هستند.
خط لوله با جاسازی دادههای متنی در مقیاس بزرگ در یک فضای معنایی با استفاده از رمزگذارهای از پیش آموزشدیده شروع میشود. سپس خوشهبندی K-means برای سازماندهی دادهها به گروههای منسجم اعمال میشود که بر اساس کیفیت محتوا و افزونگی هرس و ادغام میشوند. این پایه و اساس ساخت ترکیبهای کاندید را تشکیل میدهد.
متعاقباً، CLIMB از مدلهای پروکسی برای ارزیابی ترکیبهای نمونهبرداری شده استفاده میکند و یک پیشبینیکننده مبتنی بر رگرسیون (به عنوان مثال، LightGBM) را برای تخمین عملکرد ترکیب تنظیم میکند. یک روش بوتاسترپ تکراری به تدریج فضای نمونهبرداری را پالایش میکند و پیکربندیهای با عملکرد بالا را در اولویت قرار میدهد. این امر به CLIMB اجازه میدهد تا تحت یک بودجه محاسباتی ثابت، بر روی یک ترکیب داده موثر همگرا شود.
جزئیات فنی و ملاحظات طراحی
فرآیند بهینهسازی به عنوان یک مسئله دو سطحی مطرح میشود: در سطح پایینتر، مدلهای پروکسی بر روی ترکیبهای کاندید آموزش داده میشوند؛ در سطح بالاتر، یک پیشبینیکننده برای تقریب نتایج عملکرد یاد گرفته میشود. این پیشبینیکننده، نمونهبرداری و هرس بیشتر را هدایت میکند و امکان بررسی کارآمد فضای ترکیب را فراهم میکند.
CLIMB از پراکندگی در وزنهای ترکیب پشتیبانی میکند و کشف زیرمجموعههای دادهای فشرده و مرتبط با دامنه را تشویق میکند. استفاده از خوشهبندی بر روی جاسازیها - به جای ویژگیهای سطح نشانه - انسجام معنایی را در خوشهها تضمین میکند. پالایش تکراری به گونهای ساختار یافته است که تعادلی بین وسعت (پوشش فضای جستجو) و عمق (دقت پیشبینی) برقرار کند، و مطالعات حذف نشان میدهند که تخصیص دقیق محاسبات در طول تکرارها، همگرایی و عملکرد نهایی را بهبود میبخشد.
این چارچوب همچنین در اندازههای مدل پروکسی و دانه بندی خوشهها، استحکام نشان میدهد. در حالی که مدلهای پروکسی بزرگتر پیشبینیهای کمی بهتری ارائه میدهند، حتی مدلهای کوچکتر نیز روندهای ساختاری کلیدی را حفظ میکنند. به طور مشابه، CLIMB نسبتاً نسبت به تعداد خوشههای اولیه حساس نیست، به شرطی که در یک محدوده معقول باشد.
ارزیابی تجربی و مشاهدات
CLIMB بر روی چندین وظیفه استدلال عمومی از جمله PIQA، ARC (آسان و چالش)، HellaSwag و WinoGrande ارزیابی شد. یک مدل 1 میلیارد پارامتری که بر روی ترکیبهای کشف شده توسط CLIMB آموزش داده شده بود، به میانگین دقت 60.41٪ دست یافت که از خطوط پایه قابل مقایسه مانند DoReMi و RegMix بهتر عمل کرد.
هنگامی که این مدل 1 میلیاردی به پیشآموزش 400 میلیارد توکنی گسترش یافت، 2.0٪ بهتر از Llama-3.2-1B در یک مجموعه گسترده از معیارها عمل کرد. به طور مشابه، در دسته مدلهای زیر 500 میلیون، پیشآموزش مبتنی بر CLIMB منجر به بهبودهای مداوم نسبت به مدلهایی مانند SmolLM و TinyLlama شد.
تخصص دامنه بیشتر بر سودمندی CLIMB تأکید میکند. در معیارهای هدفمند MMLU در STEM، علوم انسانی و علوم اجتماعی، مدلهای آموزشدیده CLIMB از انتخاب تصادفی و خطوط پایه جستجوی جامع بهتر عمل کردند. فرآیند تکراری در هر مرحله، دستاوردهای ثابتی را نشان داد که نشاندهنده راهنمایی موثر از مدل پیشبینیکننده است.
برای تسهیل بازتولیدپذیری و تحقیقات بیشتر، انویدیا دو منبع را منتشر کرده است:
- ClimbLab: یک پیکره 1.2 تریلیون توکنی که در 20 خوشه معنایی سازماندهی شده است.
- ClimbMix: یک ترکیب بهینهسازی شده 400 میلیارد توکنی برای پیشآموزش کارآمد.
مدلهای آموزشدیده بر روی ClimbMix، بهتر از مدلهای آموزشدیده بر روی مجموعههای دادهای مانند Nemotron-CC و SmolLM تحت بودجه توکن معادل عمل میکنند و ویژگیهای مقیاسبندی بهبود یافته را نشان میدهند.
نتیجهگیری
CLIMB یک رویکرد سیستماتیک برای بهینهسازی ترکیب دادهها در پیشآموزش مدل زبانی بزرگ ارائه میدهد. با ترکیب خوشهبندی معنایی با جستجوی تکراری مبتنی بر پروکسی، از تکیه بر حاشیهنویسیهای دستی یا اکتشافات ایستا اجتناب میکند. این روش از اهداف آموزشی عمومی و تخصصی پشتیبانی میکند و با محدودیتهای مختلف محاسباتی و دادهای سازگار است.
این چارچوب با ارائه یک جایگزین مقیاسپذیر و اصولی برای خطوط لوله دادهای دستساز، به تلاشهای جاری در هوش مصنوعی دادهمحور کمک میکند. عملکرد تجربی آن بر اهمیت بهینهسازی ترکیب دادهها در به حداکثر رساندن سودمندی مدل، به ویژه تحت بودجه منابع ثابت، تأکید میکند.
مقاله را بررسی کنید: Paper, ClimbLab on HF and ClimbMix on HF . همچنین، فراموش نکنید که ما را در توییتر دنبال کنید و به کانال تلگرام و گروه لینکدین ما بپیوندید. فراموش نکنید که به 90k+ ML SubReddit ما بپیوندید.