معرفی CLIMB: چارچوبی برای بهینه‌سازی تکراری ترکیب داده‌ها در پیش‌آموزش مدل زبانی

چالش‌ها در ساخت ترکیب داده‌های موثر برای پیش‌آموزش

با افزایش اندازه و توانایی مدل‌های زبانی بزرگ (LLM)، انتخاب داده‌های پیش‌آموزش همچنان یک عامل تعیین‌کننده حیاتی در عملکرد نهایی است. بیشتر مدل‌های زبانی بزرگ بر روی مجموعه‌های داده بزرگ در مقیاس وب مانند Common Crawl آموزش داده می‌شوند که پوشش گسترده‌ای را ارائه می‌دهند اما فاقد برچسب‌های دامنه صریح هستند. این امر مشکلاتی را در انتخاب ترکیب‌هایی ایجاد می‌کند که دانش عمومی را با تخصص خاص دامنه متعادل کند.

انتخاب دستی مجموعه داده‌ها، همانطور که در تلاش‌هایی مانند The Pile دیده می‌شود، پرهزینه است و به خوبی مقیاس‌پذیر نیست. علاوه بر این، رابطه غیرخطی بین ترکیب داده‌ها و عملکرد مدل، تعیین نسبت‌های بهینه داده‌های دامنه را غیر‌بدیهی می‌کند. این محدودیت‌ها نیاز به روش‌های انتخاب داده خودکار، مقیاس‌پذیر و انطباقی را ایجاد می‌کند.

miniCON 2025
miniCON 2025

CLIMB: چارچوبی تکراری برای کشف ترکیب داده‌ها

برای حل این مشکل، محققان انویدیا CLIMB - بوت‌استرپ تکراری ترکیب داده‌ها مبتنی بر خوشه‌بندی (Clustering-based Iterative Data Mixture Bootstrapping) را پیشنهاد می‌کنند؛ چارچوبی که کشف و پالایش خودکار ترکیب داده‌ها را برای پیش‌آموزش مدل زبانی انجام می‌دهد. CLIMB خوشه‌بندی بدون نظارت را با بهینه‌سازی تکراری ترکیب می‌کند تا ترکیب‌هایی را شناسایی کند که برای اهداف عمومی یا خاص دامنه مناسب هستند.

miniCON 2025
miniCON 2025

خط لوله با جاسازی داده‌های متنی در مقیاس بزرگ در یک فضای معنایی با استفاده از رمزگذارهای از پیش آموزش‌دیده شروع می‌شود. سپس خوشه‌بندی K-means برای سازماندهی داده‌ها به گروه‌های منسجم اعمال می‌شود که بر اساس کیفیت محتوا و افزونگی هرس و ادغام می‌شوند. این پایه و اساس ساخت ترکیب‌های کاندید را تشکیل می‌دهد.

متعاقباً، CLIMB از مدل‌های پروکسی برای ارزیابی ترکیب‌های نمونه‌برداری شده استفاده می‌کند و یک پیش‌بینی‌کننده مبتنی بر رگرسیون (به عنوان مثال، LightGBM) را برای تخمین عملکرد ترکیب تنظیم می‌کند. یک روش بوت‌استرپ تکراری به تدریج فضای نمونه‌برداری را پالایش می‌کند و پیکربندی‌های با عملکرد بالا را در اولویت قرار می‌دهد. این امر به CLIMB اجازه می‌دهد تا تحت یک بودجه محاسباتی ثابت، بر روی یک ترکیب داده موثر همگرا شود.

جزئیات فنی و ملاحظات طراحی

فرآیند بهینه‌سازی به عنوان یک مسئله دو سطحی مطرح می‌شود: در سطح پایین‌تر، مدل‌های پروکسی بر روی ترکیب‌های کاندید آموزش داده می‌شوند؛ در سطح بالاتر، یک پیش‌بینی‌کننده برای تقریب نتایج عملکرد یاد گرفته می‌شود. این پیش‌بینی‌کننده، نمونه‌برداری و هرس بیشتر را هدایت می‌کند و امکان بررسی کارآمد فضای ترکیب را فراهم می‌کند.

CLIMB از پراکندگی در وزن‌های ترکیب پشتیبانی می‌کند و کشف زیرمجموعه‌های داده‌ای فشرده و مرتبط با دامنه را تشویق می‌کند. استفاده از خوشه‌بندی بر روی جاسازی‌ها - به جای ویژگی‌های سطح نشانه - انسجام معنایی را در خوشه‌ها تضمین می‌کند. پالایش تکراری به گونه‌ای ساختار یافته است که تعادلی بین وسعت (پوشش فضای جستجو) و عمق (دقت پیش‌بینی) برقرار کند، و مطالعات حذف نشان می‌دهند که تخصیص دقیق محاسبات در طول تکرارها، همگرایی و عملکرد نهایی را بهبود می‌بخشد.

این چارچوب همچنین در اندازه‌های مدل پروکسی و دانه بندی خوشه‌ها، استحکام نشان می‌دهد. در حالی که مدل‌های پروکسی بزرگتر پیش‌بینی‌های کمی بهتری ارائه می‌دهند، حتی مدل‌های کوچکتر نیز روندهای ساختاری کلیدی را حفظ می‌کنند. به طور مشابه، CLIMB نسبتاً نسبت به تعداد خوشه‌های اولیه حساس نیست، به شرطی که در یک محدوده معقول باشد.

ارزیابی تجربی و مشاهدات

CLIMB بر روی چندین وظیفه استدلال عمومی از جمله PIQA، ARC (آسان و چالش)، HellaSwag و WinoGrande ارزیابی شد. یک مدل 1 میلیارد پارامتری که بر روی ترکیب‌های کشف شده توسط CLIMB آموزش داده شده بود، به میانگین دقت 60.41٪ دست یافت که از خطوط پایه قابل مقایسه مانند DoReMi و RegMix بهتر عمل کرد.

هنگامی که این مدل 1 میلیاردی به پیش‌آموزش 400 میلیارد توکنی گسترش یافت، 2.0٪ بهتر از Llama-3.2-1B در یک مجموعه گسترده از معیارها عمل کرد. به طور مشابه، در دسته مدل‌های زیر 500 میلیون، پیش‌آموزش مبتنی بر CLIMB منجر به بهبودهای مداوم نسبت به مدل‌هایی مانند SmolLM و TinyLlama شد.

تخصص دامنه بیشتر بر سودمندی CLIMB تأکید می‌کند. در معیارهای هدفمند MMLU در STEM، علوم انسانی و علوم اجتماعی، مدل‌های آموزش‌دیده CLIMB از انتخاب تصادفی و خطوط پایه جستجوی جامع بهتر عمل کردند. فرآیند تکراری در هر مرحله، دستاوردهای ثابتی را نشان داد که نشان‌دهنده راهنمایی موثر از مدل پیش‌بینی‌کننده است.

برای تسهیل بازتولیدپذیری و تحقیقات بیشتر، انویدیا دو منبع را منتشر کرده است:

  • ClimbLab: یک پیکره 1.2 تریلیون توکنی که در 20 خوشه معنایی سازماندهی شده است.
  • ClimbMix: یک ترکیب بهینه‌سازی شده 400 میلیارد توکنی برای پیش‌آموزش کارآمد.

مدل‌های آموزش‌دیده بر روی ClimbMix، بهتر از مدل‌های آموزش‌دیده بر روی مجموعه‌های داده‌ای مانند Nemotron-CC و SmolLM تحت بودجه توکن معادل عمل می‌کنند و ویژگی‌های مقیاس‌بندی بهبود یافته را نشان می‌دهند.

نتیجه‌گیری

CLIMB یک رویکرد سیستماتیک برای بهینه‌سازی ترکیب داده‌ها در پیش‌آموزش مدل زبانی بزرگ ارائه می‌دهد. با ترکیب خوشه‌بندی معنایی با جستجوی تکراری مبتنی بر پروکسی، از تکیه بر حاشیه‌نویسی‌های دستی یا اکتشافات ایستا اجتناب می‌کند. این روش از اهداف آموزشی عمومی و تخصصی پشتیبانی می‌کند و با محدودیت‌های مختلف محاسباتی و داده‌ای سازگار است.

این چارچوب با ارائه یک جایگزین مقیاس‌پذیر و اصولی برای خطوط لوله داده‌ای دست‌ساز، به تلاش‌های جاری در هوش مصنوعی داده‌محور کمک می‌کند. عملکرد تجربی آن بر اهمیت بهینه‌سازی ترکیب داده‌ها در به حداکثر رساندن سودمندی مدل، به ویژه تحت بودجه منابع ثابت، تأکید می‌کند.


مقاله را بررسی کنید: Paper, ClimbLab on HF and ClimbMix on HF . همچنین، فراموش نکنید که ما را در توییتر دنبال کنید و به کانال تلگرام و گروه لینکدین ما بپیوندید. فراموش نکنید که به 90k+ ML SubReddit ما بپیوندید.

🔥 [اکنون ثبت نام کنید] کنفرانس مجازی miniCON در مورد هوش مصنوعی AGENTIC: ثبت نام رایگان + گواهی حضور + رویداد کوتاه 4 ساعته (21 مه، 9 صبح تا 1 بعد از ظهر PST) + کارگاه عملی