مدلهای زبانی بزرگ (LLMs) عملکرد قابل توجهی در وظایف متنوع متنی و چندوجهی نشان دادهاند. با این حال، بسیاری از برنامهها، مانند درک اسناد و ویدیو، یادگیری در متن و مقیاسبندی زمان استنتاج، نیازمند توانایی پردازش و استدلال بر روی توالیهای طولانی از توکنها هستند. پنجره زمینه محدود LLMها یک چالش مهم در این شرایط ایجاد میکند، زیرا اطلاعات حیاتی پخش شده در اسناد طولانی ممکن است نادیده گرفته شوند. مدلها اغلب اطلاعات حیاتی را هنگام پردازش اسناد یا فیلمهای گسترده از دست میدهند، زیرا خارج از پنجرههای زمینه ثابت خود قرار میگیرند. این محدودیت نیاز به مدلهایی را ایجاد میکند که بتوانند به طور موثر زمینههای فوقالعاده طولانی را بدون قربانی کردن عملکرد در وظایف استاندارد، مدیریت کنند.
استراتژیهای توسعه زمینه موجود برای مدلهای زبانی با زمینه طولانی به سه دسته تقسیم میشوند: روشهای توجه دقیق، روشهای توجه تقریبی و رویکردهایی که ماژولهای اضافی را در خود جای میدهند. روشهایی مانند درونیابی موقعیت (Position Interpolation)، آگاه از NTK (NTK-aware)، NTK پویا (Dynamic NTK)، YaRN و CLEX مکانیسمهای توجه را از طریق جاسازیهای موقعیت دوباره طراحی شده، تقویت میکنند. پیشرفتهای اخیر شامل مدلهایی مانند GPT-4o، Gemini و Claude است که از پنجرههای زمینه گسترده صدها هزار توکن پشتیبانی میکنند، اما ماهیت متنباز نبودن آنها قابلیت بازتولید را محدود میکند. تلاشهای متنباز مانند ProLong از مقیاسبندی آگاه از NTK استفاده میکنند، اما محاسبات پرهزینهای را میطلبند، در حالی که Gradient از پیشآموزش مستمر استفاده میکند که حاوی عملکرد وظایف استاندارد است.
محققان UIUC و NVIDIA یک دستورالعمل آموزش کارآمد برای ساخت LLMهای با زمینه فوقالعاده طولانی از مدلهای آموزشی تراز شده پیشنهاد کردهاند و مرزهای طول زمینهها را از 128K به 1M، 2M و 4M توکن افزایش دادهاند. این روش از استراتژیهای پیشآموزش مستمر کارآمد برای گسترش پنجره زمینه ضمن استفاده از تنظیم دستورالعمل برای حفظ تواناییهای استدلال و پیروی از دستورالعمل استفاده میکند. علاوه بر این، مدل UltraLong-8B آنها به عملکردی پیشرفته در معیارهای متنوع زمینه طولانی دست مییابد. مدلهای آموزش دیده با این رویکرد عملکرد رقابتی را در معیارهای استاندارد حفظ میکنند و پیشرفتهای متوازن را برای وظایف زمینه طولانی و کوتاه نشان میدهند. این تحقیق تجزیه و تحلیل عمیقی از انتخابهای طراحی کلیدی ارائه میدهد و تأثیرات استراتژیهای مقیاسبندی و ترکیب دادهها را برجسته میکند.
روش پیشنهادی شامل دو مرحله کلیدی است: پیشآموزش مستمر و تنظیم دستورالعمل. این مراحل با هم پردازش موثر ورودیهای فوقالعاده طولانی را در حالی که عملکرد قوی را در بین وظایف حفظ میکنند، امکانپذیر میسازند. یک رویکرد مقیاسبندی مبتنی بر YaRN برای گسترش زمینه با ابرپارامترهای ثابت به عنوان a = 1 و ß = 4 به جای استراتژیهای مقیاسبندی آگاه از NTK اتخاذ شده است. فاکتورهای مقیاس بر اساس طول زمینه هدف محاسبه میشوند و از فاکتورهای مقیاسبندی بزرگتر برای جاسازیهای RoPE برای تطبیق توالیهای طولانیتر و کاهش تخریب عملکرد در حداکثر طولها استفاده میکنند. محققان زیرمجموعهای از مجموعه دادههای SFT با کیفیت بالا را که دامنههای عمومی، ریاضیات و کد را در بر میگیرند، برای دادههای آموزشی نمونهبرداری میکنند و بیشتر از GPT-4o و GPT-4o-mini برای اصلاح پاسخها و انجام آلودگیزدایی دقیق دادهها استفاده میکنند.
مدلهای پیشنهادی قابلیتهای بازیابی زمینه طولانی برتری را در آزمون بازیابی رمز عبور Needle in a Haystack نشان میدهند. مدلهای پایه مانند Llama-3-8B-Instruct-Gradient-1048k این آزمون را قبول میکنند، اما Llama3.1-8B-Instruct و Llama-3-8B-ProLong-512k-Instruct خطا نشان میدهند. در مقابل، مدلهای UltraLong به دقت 100% در تمام طولها و عمقهای ورودی دست مییابند و قابلیت بازیابی قوی را نشان میدهند. UltraLong بالاترین میانگین امتیازها را در RULER برای ورودیهای تا 512K و 1M توکن، بالاترین امتیازهای F1 را در LV-Eval در طولهای توکن 128K و 256K و بهترین عملکرد را در InfiniteBench به دست میآورد. علاوه بر این، مدلها عملکرد قوی را در دامنههای عمومی، ریاضیات و کد با میانگین امتیازهای 62.47، 61.06 و 60.95 حفظ میکنند و از 61.45 مدل پایه فراتر میروند.
این مقاله تحقیقاتی یک دستورالعمل آموزشی کارآمد و سیستماتیک برای مدلهای زبانی با زمینه فوقالعاده طولانی معرفی میکند و پنجرههای زمینه را به 1M، 2M و 4M توکن گسترش میدهد و در عین حال عملکرد رقابتی را در معیارهای استاندارد حفظ میکند. این رویکرد پیشآموزش مستمر کارآمد را با تنظیم دستورالعمل ترکیب میکند تا درک زمینه طولانی و قابلیتهای پیروی از دستورالعمل را افزایش دهد. با این حال، این رویکرد فقط بر روی SFT در مجموعه دادههای دستورالعمل در مرحله تنظیم دستورالعمل بدون بررسی یادگیری تقویتی یا بهینهسازی ترجیحات تمرکز دارد. همچنین، به همسویی ایمنی نمیپردازد. تحقیقات آینده شامل ادغام مکانیسمهای همسویی ایمنی و بررسی استراتژیهای تنظیم پیشرفته، افزایش بیشتر عملکرد و قابلیت اطمینان است.
مقاله را در اینجا و مدل را در Hugging Face بررسی کنید. تمام اعتبار این تحقیق به محققان این پروژه میرسد. همچنین، میتوانید ما را در توییتر دنبال کنید و فراموش نکنید که به 85k+ ML SubReddit ما بپیوندید.