معرفی UltraLong-8B: سری مدل‌های زبانی با زمینه بسیار طولانی (تا 1 میلیون، 2 میلیون و 4 میلیون توکن) توسط NVIDIA AI

معماری مدل UltraLong
معماری مدل UltraLong

مدل‌های زبانی بزرگ (LLMs) عملکرد قابل توجهی در وظایف متنوع متنی و چندوجهی نشان داده‌اند. با این حال، بسیاری از برنامه‌ها، مانند درک اسناد و ویدیو، یادگیری در متن و مقیاس‌بندی زمان استنتاج، نیازمند توانایی پردازش و استدلال بر روی توالی‌های طولانی از توکن‌ها هستند. پنجره زمینه محدود LLMها یک چالش مهم در این شرایط ایجاد می‌کند، زیرا اطلاعات حیاتی پخش شده در اسناد طولانی ممکن است نادیده گرفته شوند. مدل‌ها اغلب اطلاعات حیاتی را هنگام پردازش اسناد یا فیلم‌های گسترده از دست می‌دهند، زیرا خارج از پنجره‌های زمینه ثابت خود قرار می‌گیرند. این محدودیت نیاز به مدل‌هایی را ایجاد می‌کند که بتوانند به طور موثر زمینه‌های فوق‌العاده طولانی را بدون قربانی کردن عملکرد در وظایف استاندارد، مدیریت کنند.

استراتژی‌های توسعه زمینه موجود برای مدل‌های زبانی با زمینه طولانی به سه دسته تقسیم می‌شوند: روش‌های توجه دقیق، روش‌های توجه تقریبی و رویکردهایی که ماژول‌های اضافی را در خود جای می‌دهند. روش‌هایی مانند درون‌یابی موقعیت (Position Interpolation)، آگاه از NTK (NTK-aware)، NTK پویا (Dynamic NTK)، YaRN و CLEX مکانیسم‌های توجه را از طریق جاسازی‌های موقعیت دوباره طراحی شده، تقویت می‌کنند. پیشرفت‌های اخیر شامل مدل‌هایی مانند GPT-4o، Gemini و Claude است که از پنجره‌های زمینه گسترده صدها هزار توکن پشتیبانی می‌کنند، اما ماهیت متن‌باز نبودن آن‌ها قابلیت بازتولید را محدود می‌کند. تلاش‌های متن‌باز مانند ProLong از مقیاس‌بندی آگاه از NTK استفاده می‌کنند، اما محاسبات پرهزینه‌ای را می‌طلبند، در حالی که Gradient از پیش‌آموزش مستمر استفاده می‌کند که حاوی عملکرد وظایف استاندارد است.

محققان UIUC و NVIDIA یک دستورالعمل آموزش کارآمد برای ساخت LLMهای با زمینه فوق‌العاده طولانی از مدل‌های آموزشی تراز شده پیشنهاد کرده‌اند و مرزهای طول زمینه‌ها را از 128K به 1M، 2M و 4M توکن افزایش داده‌اند. این روش از استراتژی‌های پیش‌آموزش مستمر کارآمد برای گسترش پنجره زمینه ضمن استفاده از تنظیم دستورالعمل برای حفظ توانایی‌های استدلال و پیروی از دستورالعمل استفاده می‌کند. علاوه بر این، مدل UltraLong-8B آن‌ها به عملکردی پیشرفته در معیارهای متنوع زمینه طولانی دست می‌یابد. مدل‌های آموزش دیده با این رویکرد عملکرد رقابتی را در معیارهای استاندارد حفظ می‌کنند و پیشرفت‌های متوازن را برای وظایف زمینه طولانی و کوتاه نشان می‌دهند. این تحقیق تجزیه و تحلیل عمیقی از انتخاب‌های طراحی کلیدی ارائه می‌دهد و تأثیرات استراتژی‌های مقیاس‌بندی و ترکیب داده‌ها را برجسته می‌کند.

روش پیشنهادی شامل دو مرحله کلیدی است: پیش‌آموزش مستمر و تنظیم دستورالعمل. این مراحل با هم پردازش موثر ورودی‌های فوق‌العاده طولانی را در حالی که عملکرد قوی را در بین وظایف حفظ می‌کنند، امکان‌پذیر می‌سازند. یک رویکرد مقیاس‌بندی مبتنی بر YaRN برای گسترش زمینه با ابرپارامترهای ثابت به عنوان a = 1 و ß = 4 به جای استراتژی‌های مقیاس‌بندی آگاه از NTK اتخاذ شده است. فاکتورهای مقیاس بر اساس طول زمینه هدف محاسبه می‌شوند و از فاکتورهای مقیاس‌بندی بزرگتر برای جاسازی‌های RoPE برای تطبیق توالی‌های طولانی‌تر و کاهش تخریب عملکرد در حداکثر طول‌ها استفاده می‌کنند. محققان زیرمجموعه‌ای از مجموعه داده‌های SFT با کیفیت بالا را که دامنه‌های عمومی، ریاضیات و کد را در بر می‌گیرند، برای داده‌های آموزشی نمونه‌برداری می‌کنند و بیشتر از GPT-4o و GPT-4o-mini برای اصلاح پاسخ‌ها و انجام آلودگی‌زدایی دقیق داده‌ها استفاده می‌کنند.

مدل‌های پیشنهادی قابلیت‌های بازیابی زمینه طولانی برتری را در آزمون بازیابی رمز عبور Needle in a Haystack نشان می‌دهند. مدل‌های پایه مانند Llama-3-8B-Instruct-Gradient-1048k این آزمون را قبول می‌کنند، اما Llama3.1-8B-Instruct و Llama-3-8B-ProLong-512k-Instruct خطا نشان می‌دهند. در مقابل، مدل‌های UltraLong به دقت 100% در تمام طول‌ها و عمق‌های ورودی دست می‌یابند و قابلیت بازیابی قوی را نشان می‌دهند. UltraLong بالاترین میانگین امتیازها را در RULER برای ورودی‌های تا 512K و 1M توکن، بالاترین امتیازهای F1 را در LV-Eval در طول‌های توکن 128K و 256K و بهترین عملکرد را در InfiniteBench به دست می‌آورد. علاوه بر این، مدل‌ها عملکرد قوی را در دامنه‌های عمومی، ریاضیات و کد با میانگین امتیازهای 62.47، 61.06 و 60.95 حفظ می‌کنند و از 61.45 مدل پایه فراتر می‌روند.

این مقاله تحقیقاتی یک دستورالعمل آموزشی کارآمد و سیستماتیک برای مدل‌های زبانی با زمینه فوق‌العاده طولانی معرفی می‌کند و پنجره‌های زمینه را به 1M، 2M و 4M توکن گسترش می‌دهد و در عین حال عملکرد رقابتی را در معیارهای استاندارد حفظ می‌کند. این رویکرد پیش‌آموزش مستمر کارآمد را با تنظیم دستورالعمل ترکیب می‌کند تا درک زمینه طولانی و قابلیت‌های پیروی از دستورالعمل را افزایش دهد. با این حال، این رویکرد فقط بر روی SFT در مجموعه داده‌های دستورالعمل در مرحله تنظیم دستورالعمل بدون بررسی یادگیری تقویتی یا بهینه‌سازی ترجیحات تمرکز دارد. همچنین، به همسویی ایمنی نمی‌پردازد. تحقیقات آینده شامل ادغام مکانیسم‌های همسویی ایمنی و بررسی استراتژی‌های تنظیم پیشرفته، افزایش بیشتر عملکرد و قابلیت اطمینان است.


مقاله را در اینجا و مدل را در Hugging Face بررسی کنید. تمام اعتبار این تحقیق به محققان این پروژه می‌رسد. همچنین، می‌توانید ما را در توییتر دنبال کنید و فراموش نکنید که به 85k+ ML SubReddit ما بپیوندید.