مدلهای رمزگذار مانند BERT و RoBERTa مدتهاست که از ارکان اصلی پردازش زبان طبیعی (NLP) بودهاند و وظایفی مانند طبقهبندی متن، بازیابی و تشخیص سمیت را انجام میدهند. با این حال، در حالی که مدلهای زبانی بزرگ (LLM) مبتنی بر رمزگشا مانند GPT و LLaMA به سرعت تکامل یافتهاند - با ادغام نوآوریهای معماری، مجموعه دادههای بزرگتر و پنجرههای زمینه گسترده - رمزگذارها راکد ماندهاند. علیرغم نقش حیاتی آنها در برنامههای وابسته به جاسازی، مدلهای خانواده BERT به معماریهای قدیمی، دادههای آموزشی محدود و طول زمینههای کوتاه تکیه میکنند که منجر به عملکرد نامطلوب در معیارهای مدرن میشود. در این مقاله، محققان NeoBERT را برای احیای طراحی رمزگذار با ادغام پیشرفتها از مدلهای رمزگشا و در عین حال رفع محدودیتهای ذاتی رمزگذارهای موجود ارائه کردهاند.
رمزگذارهای سنتی مانند BERT و RoBERTa از جاسازیهای موقعیتی مطلق، فعالسازیهای Gaussian Error Linear Unit (GELU) و یک پنجره زمینه ثابت 512 توکنی استفاده میکنند. در حالی که مدلهای جدیدتر مانند GTE و CDE استراتژیهای تنظیم دقیق را برای وظایفی مانند بازیابی بهبود بخشیدهاند، آنها بر معماریهای ستون فقرات قدیمی بهجامانده از BERT تکیه میکنند. این ستون فقرات از ناکارآمدیها رنج میبرند:
- انعطافناپذیری معماری: نسبتهای عمق به عرض ثابت و روشهای رمزگذاری موقعیتی، انطباقپذیری با دنبالههای طولانیتر را محدود میکنند.
- کمبود داده: پیشآموزش بر روی مجموعهدادههای کوچک (به عنوان مثال، ویکیپدیا + BookCorpus) تنوع دانش را محدود میکند.
- محدودیتهای زمینه: طول دنبالههای کوتاه (512–2048 توکن) مانع از برنامههایی میشود که نیاز به درک زمینه طولانی دارند.
پیشرفتهای اخیر در تنظیم دقیق، این مسائل را پنهان کرد اما نتوانست مدلهای اصلی را مدرن کند. به عنوان مثال، یادگیری متضاد GTE عملکرد بازیابی را افزایش میدهد اما نمیتواند جاسازیهای منسوخ BERT را جبران کند. NeoBERT این شکافها را از طریق اصلاحات معماری، مقیاسبندی دادهها و آموزش بهینهسازیشده برطرف میکند:
-
مدرنسازی معماری:
- جاسازیهای موقعیتی چرخشی (RoPE): جایگزینی جاسازیهای موقعیتی مطلق با موقعیتیابی نسبی، امکان تعمیم بهتر به دنبالههای طولانیتر را فراهم میکند. RoPE اطلاعات موقعیتی را مستقیماً در مکانیسمهای توجه ادغام میکند و تخریب در طولهای خارج از توزیع را کاهش میدهد.
- بهینهسازی عمق به عرض: تنظیم عمق لایه (28 لایه) و عرض (768 بعد) برای متعادل کردن کارایی پارامتر و عملکرد، اجتناب از "ناکارآمدی عرض" مدلهای کوچکتر.
- RMSNorm و SwiGLU: جایگزینی LayerNorm با RMSNorm برای محاسبات سریعتر و اتخاذ فعالسازیهای SwiGLU، بهبود مدلسازی غیرخطی در عین حفظ تعداد پارامترها.
-
داده و آموزش:
- مجموعهداده RefinedWeb: آموزش بر روی 600B توکن (18 برابر بزرگتر از دادههای RoBERTa)، قرار دادن مدل در معرض متنهای متنوع و واقعی.
- گسترش زمینه دو مرحلهای: ابتدا پیشآموزش بر روی دنبالههای 1024 توکنی، سپس تنظیم دقیق بر روی دستههای 4096 توکنی با استفاده از ترکیبی از دادههای استاندارد و زمینه طولانی. این رویکرد مرحلهای تغییرات توزیع را کاهش میدهد و در عین حال زمینه قابل استفاده را گسترش میدهد.
-
بهینهسازیهای کارایی:
- FlashAttention و xFormers: کاهش سربار حافظه برای دنبالههای طولانیتر.
- AdamW با Cosine Decay: متعادل کردن ثبات آموزش و منظمسازی. عملکرد و ارزیابی
بهبودهای NeoBERT در سراسر معیارهای زیر تأیید شدهاند:
- GLUE: امتیاز 89.0% را کسب میکند که با عملکرد RoBERTa-large مطابقت دارد، علیرغم داشتن 100 میلیون پارامتر کمتر. محرکهای کلیدی شامل مجموعهداده RefinedWeb (افزایش 3.6 درصدی) و اندازه مدل مقیاسبندیشده (افزایش 2.9 درصدی) است.
- MTEB: از GTE، CDE و jina-embeddings با +4.5% تحت تنظیم دقیق متضاد استاندارد پیشی میگیرد و کیفیت جاسازی برتر را نشان میدهد. این ارزیابی با اعمال پروتکلهای تنظیم دقیق یکسان بر روی همه مدلها، مزایای پیشآموزش را جدا میکند.
- طول زمینه: NeoBERT4096 پس از 50 هزار مرحله آموزشی اضافی، پیچیدگی پایداری را در دنبالههای 4096 توکنی به دست میآورد، در حالی که BERT فراتر از 512 توکن با مشکل مواجه میشود. آزمایشهای کارایی نشان میدهد که NeoBERT دستههای 4096 توکنی را 46.7% سریعتر از ModernBERT پردازش میکند، علیرغم اندازه بزرگتر.
در نتیجه، NeoBERT نشاندهنده یک تغییر الگو برای مدلهای رمزگذار است و شکاف بین معماریهای راکد و پیشرفتهای LLM مدرن را پر میکند. با بازنگری در نسبتهای عمق به عرض، رمزگذاری موقعیتی و مقیاسبندی دادهها، به عملکرد بهینه در GLUE و MTEB دست مییابد و در عین حال از پنجرههای زمینه هشت برابر طولانیتر از BERT پشتیبانی میکند. کارایی و در دسترس بودن منبع باز آن، آن را به یک انتخاب عملی برای بازیابی، طبقهبندی و برنامههای کاربردی دنیای واقعی تبدیل میکند که نیاز به جاسازیهای قوی دارند. با این حال، اتکا به دادههای مقیاس وب سوگیریهایی را معرفی میکند و نیاز به بهروزرسانیهای مداوم با ظهور مجموعهدادههای پاکتر دارد. موفقیت NeoBERT بر پتانسیل استفاده نشده از مدرنسازی رمزگذار تأکید میکند و یک نقشه راه برای تحقیقات آینده در درک زبان کارآمد و مقیاسپذیر ارائه میدهد.
مقاله را بررسی کنید و مدل در Hugging Face . تمام اعتبار این تحقیق به محققان این پروژه میرسد. همچنین، در توییتر ما را دنبال کنید و فراموش نکنید که به 80k+ ML SubReddit ما بپیوندید.