معماری NeoBERT
معماری NeoBERT

NeoBERT: مدرن‌سازی مدل‌های رمزگذار برای درک بهتر زبان

معماری NeoBERT
معماری NeoBERT

مدل‌های رمزگذار مانند BERT و RoBERTa مدت‌هاست که از ارکان اصلی پردازش زبان طبیعی (NLP) بوده‌اند و وظایفی مانند طبقه‌بندی متن، بازیابی و تشخیص سمیت را انجام می‌دهند. با این حال، در حالی که مدل‌های زبانی بزرگ (LLM) مبتنی بر رمزگشا مانند GPT و LLaMA به سرعت تکامل یافته‌اند - با ادغام نوآوری‌های معماری، مجموعه داده‌های بزرگتر و پنجره‌های زمینه گسترده - رمزگذارها راکد مانده‌اند. علیرغم نقش حیاتی آنها در برنامه‌های وابسته به جاسازی، مدل‌های خانواده BERT به معماری‌های قدیمی، داده‌های آموزشی محدود و طول زمینه‌های کوتاه تکیه می‌کنند که منجر به عملکرد نامطلوب در معیارهای مدرن می‌شود. در این مقاله، محققان NeoBERT را برای احیای طراحی رمزگذار با ادغام پیشرفت‌ها از مدل‌های رمزگشا و در عین حال رفع محدودیت‌های ذاتی رمزگذارهای موجود ارائه کرده‌اند.

رمزگذارهای سنتی مانند BERT و RoBERTa از جاسازی‌های موقعیتی مطلق، فعال‌سازی‌های Gaussian Error Linear Unit (GELU) و یک پنجره زمینه ثابت 512 توکنی استفاده می‌کنند. در حالی که مدل‌های جدیدتر مانند GTE و CDE استراتژی‌های تنظیم دقیق را برای وظایفی مانند بازیابی بهبود بخشیده‌اند، آنها بر معماری‌های ستون فقرات قدیمی به‌جامانده از BERT تکیه می‌کنند. این ستون فقرات از ناکارآمدی‌ها رنج می‌برند:

  1. انعطاف‌ناپذیری معماری: نسبت‌های عمق به عرض ثابت و روش‌های رمزگذاری موقعیتی، انطباق‌پذیری با دنباله‌های طولانی‌تر را محدود می‌کنند.
  2. کمبود داده: پیش‌آموزش بر روی مجموعه‌داده‌های کوچک (به عنوان مثال، ویکی‌پدیا + BookCorpus) تنوع دانش را محدود می‌کند.
  3. محدودیت‌های زمینه: طول دنباله‌های کوتاه (512–2048 توکن) مانع از برنامه‌هایی می‌شود که نیاز به درک زمینه طولانی دارند.

پیشرفت‌های اخیر در تنظیم دقیق، این مسائل را پنهان کرد اما نتوانست مدل‌های اصلی را مدرن کند. به عنوان مثال، یادگیری متضاد GTE عملکرد بازیابی را افزایش می‌دهد اما نمی‌تواند جاسازی‌های منسوخ BERT را جبران کند. NeoBERT این شکاف‌ها را از طریق اصلاحات معماری، مقیاس‌بندی داده‌ها و آموزش بهینه‌سازی‌شده برطرف می‌کند:

معماری NeoBERT
معماری NeoBERT
  1. مدرن‌سازی معماری:
    1. جاسازی‌های موقعیتی چرخشی (RoPE): جایگزینی جاسازی‌های موقعیتی مطلق با موقعیت‌یابی نسبی، امکان تعمیم بهتر به دنباله‌های طولانی‌تر را فراهم می‌کند. RoPE اطلاعات موقعیتی را مستقیماً در مکانیسم‌های توجه ادغام می‌کند و تخریب در طول‌های خارج از توزیع را کاهش می‌دهد.
    2. بهینه‌سازی عمق به عرض: تنظیم عمق لایه (28 لایه) و عرض (768 بعد) برای متعادل کردن کارایی پارامتر و عملکرد، اجتناب از "ناکارآمدی عرض" مدل‌های کوچکتر.
    3. RMSNorm و SwiGLU: جایگزینی LayerNorm با RMSNorm برای محاسبات سریع‌تر و اتخاذ فعال‌سازی‌های SwiGLU، بهبود مدل‌سازی غیرخطی در عین حفظ تعداد پارامترها.
  1. داده و آموزش:
    1. مجموعه‌داده RefinedWeb: آموزش بر روی 600B توکن (18 برابر بزرگتر از داده‌های RoBERTa)، قرار دادن مدل در معرض متن‌های متنوع و واقعی.
    2. گسترش زمینه دو مرحله‌ای: ابتدا پیش‌آموزش بر روی دنباله‌های 1024 توکنی، سپس تنظیم دقیق بر روی دسته‌های 4096 توکنی با استفاده از ترکیبی از داده‌های استاندارد و زمینه طولانی. این رویکرد مرحله‌ای تغییرات توزیع را کاهش می‌دهد و در عین حال زمینه قابل استفاده را گسترش می‌دهد.
    3. بهینه‌سازی‌های کارایی:
      1. FlashAttention و xFormers: کاهش سربار حافظه برای دنباله‌های طولانی‌تر.
      2. AdamW با Cosine Decay: متعادل کردن ثبات آموزش و منظم‌سازی. عملکرد و ارزیابی

بهبودهای NeoBERT در سراسر معیارهای زیر تأیید شده‌اند:

  1. GLUE: امتیاز 89.0% را کسب می‌کند که با عملکرد RoBERTa-large مطابقت دارد، علیرغم داشتن 100 میلیون پارامتر کمتر. محرک‌های کلیدی شامل مجموعه‌داده RefinedWeb (افزایش 3.6 درصدی) و اندازه مدل مقیاس‌بندی‌شده (افزایش 2.9 درصدی) است.
  2. MTEB: از GTE، CDE و jina-embeddings با +4.5% تحت تنظیم دقیق متضاد استاندارد پیشی می‌گیرد و کیفیت جاسازی برتر را نشان می‌دهد. این ارزیابی با اعمال پروتکل‌های تنظیم دقیق یکسان بر روی همه مدل‌ها، مزایای پیش‌آموزش را جدا می‌کند.
  3. طول زمینه: NeoBERT4096 پس از 50 هزار مرحله آموزشی اضافی، پیچیدگی پایداری را در دنباله‌های 4096 توکنی به دست می‌آورد، در حالی که BERT فراتر از 512 توکن با مشکل مواجه می‌شود. آزمایش‌های کارایی نشان می‌دهد که NeoBERT دسته‌های 4096 توکنی را 46.7% سریع‌تر از ModernBERT پردازش می‌کند، علیرغم اندازه بزرگتر.

در نتیجه، NeoBERT نشان‌دهنده یک تغییر الگو برای مدل‌های رمزگذار است و شکاف بین معماری‌های راکد و پیشرفت‌های LLM مدرن را پر می‌کند. با بازنگری در نسبت‌های عمق به عرض، رمزگذاری موقعیتی و مقیاس‌بندی داده‌ها، به عملکرد بهینه در GLUE و MTEB دست می‌یابد و در عین حال از پنجره‌های زمینه هشت برابر طولانی‌تر از BERT پشتیبانی می‌کند. کارایی و در دسترس بودن منبع باز آن، آن را به یک انتخاب عملی برای بازیابی، طبقه‌بندی و برنامه‌های کاربردی دنیای واقعی تبدیل می‌کند که نیاز به جاسازی‌های قوی دارند. با این حال، اتکا به داده‌های مقیاس وب سوگیری‌هایی را معرفی می‌کند و نیاز به به‌روزرسانی‌های مداوم با ظهور مجموعه‌داده‌های پاک‌تر دارد. موفقیت NeoBERT بر پتانسیل استفاده نشده از مدرن‌سازی رمزگذار تأکید می‌کند و یک نقشه راه برای تحقیقات آینده در درک زبان کارآمد و مقیاس‌پذیر ارائه می‌دهد.


مقاله را بررسی کنید و مدل در Hugging Face . تمام اعتبار این تحقیق به محققان این پروژه می‌رسد. همچنین، در توییتر ما را دنبال کنید و فراموش نکنید که به 80k+ ML SubReddit ما بپیوندید.

?? مطالعه توصیه شده- LG AI Research NEXUS را منتشر می‌کند: یک سیستم پیشرفته که سیستم هوش مصنوعی عامل و استانداردهای انطباق با داده‌ها را برای رسیدگی به نگرانی‌های قانونی در مجموعه‌داده‌های هوش مصنوعی ادغام می‌کند