HybridNorm: استراتژی نرمال‌سازی ترکیبی برای تقویت معماری‌های ترانسفورمر

ترانسفورمرها به عنوان پایه و اساس مدل‌های زبانی بزرگ (LLM)، انقلابی در پردازش زبان طبیعی ایجاد کرده‌اند و در مدل‌سازی وابستگی‌های طولانی‌مدت از طریق مکانیسم‌های خود-توجهی (self-attention) برتری دارند. با این حال، با عمیق‌تر و پیچیده‌تر شدن این مدل‌ها، پایداری آموزش یک چالش مهم است که به طور مستقیم بر عملکرد تأثیر می‌گذارد. محققان با یک مصالحه دشوار بین دو استراتژی اصلی نرمال‌سازی روبرو هستند: نرمال‌سازی پیش از لایه (Pre-Norm) و نرمال‌سازی پس از لایه (Post-Norm). Pre-Norm پایداری آموزش را بهبود می‌بخشد اما عملکرد نهایی مدل را به خطر می‌اندازد، در حالی که Post-Norm تعمیم و عملکرد برتر را به قیمت دشواری آموزش ارائه می‌دهد. این دوراهی پایداری-عملکرد مانع پیشرفت معماری‌های ترانسفورمر شده است.

روش‌های موجود سعی در ارتقاء معماری‌های ترانسفورمر از نظر کارایی محاسباتی و بیان مدل داشته‌اند. اصلاحات معماری مانند Multi-head Latent Attention (MLA) و Mixture of Experts (MoE) عملکرد را در وظایف مختلف بهبود داده‌اند، اما نیاز به یکپارچه‌سازی دقیق با لایه‌های نرمال‌سازی دارند. در انواع نرمال‌سازی، روش‌هایی مانند RMSNorm با پرداختن به تغییر کوواریت داخلی با استفاده از آمار ریشه میانگین مربع، اثربخشی خود را در زمینه‌های خاص نشان داده‌اند. در مورد نرمال‌سازی توجه، QK-Norm با نرمال‌سازی اجزای پرسش و کلید، ثبات را افزایش می‌دهد، در حالی که QKV-Norm این رویکرد را برای گنجاندن اجزای مقدار گسترش می‌دهد. راه‌حل‌هایی مانند DeepNorm با مقیاس‌بندی اتصالات باقیمانده، ناپایداری آموزش را برطرف می‌کنند، در حالی که Mix-LN از Post-Norm در لایه‌های قبلی و Pre-Norm در لایه‌های عمیق‌تر استفاده می‌کند.

محققانی از دانشگاه پکن، SeedFoundation-Model ByteDance و دانشگاه اقتصاد و تجارت پایتخت، HybridNorm را پیشنهاد کرده‌اند، یک استراتژی نرمال‌سازی برای ترکیب موثر نقاط قوت رویکردهای Pre-Norm و Post-Norm در معماری‌های ترانسفورمر. این روش یک تکنیک نرمال‌سازی دوگانه را در هر بلوک ترانسفورمر پیاده‌سازی می‌کند: اعمال نرمال‌سازی QKV در مکانیسم توجه در حالی که از Post-Norm در شبکه پیشخور (FFN) استفاده می‌کند. این ترکیب استراتژیک به مصالحه دیرینه پایداری-عملکرد می‌پردازد که توسعه مدل ترانسفورمر را به چالش کشیده است. این رویکرد به ویژه برای LLMها موثر است، جایی که پایداری آموزش و بهینه‌سازی عملکرد بسیار مهم است.

HybridNorm در دو سری مدل ارزیابی می‌شود: مدل‌های متراکم (550 میلیون و 1 میلیارد پارامتر) و مدل‌های MoE. مدل متراکم 1B تقریباً 1.27 میلیارد پارامتر با معماری مشابه Llama 3.2 دارد. برای نوع MoE، محققان چارچوب OLMoE را پیاده‌سازی کردند، که فقط 1.3 میلیارد پارامتر از مجموع 6.9 میلیارد را فعال می‌کند. مدل متراکم 550M دارای ابعاد مدل 1536، ابعاد FFN 4096 و 16 سر توجه است. مدل بزرگتر 1.2B این ابعاد را به ترتیب به 2048 و 9192 با 32 سر توجه گسترش می‌دهد. مدل MoE-1B-7B یک پیکربندی تخصصی با 16 سر توجه و ابعاد مدل 2048 پیاده‌سازی می‌کند و به طور انتخابی 8 متخصص را از مجموع 64 فعال می‌کند و تخصیص کارآمدتر منابع محاسباتی را امکان‌پذیر می‌کند.

نتایج تجربی عملکرد برتر HybridNorm را در مدل‌های متراکم و MoE نشان می‌دهد. در ارزیابی‌های مدل متراکم، هر دو پیکربندی HybridNorm و HybridNorm* به طور مداوم تلفات آموزش کمتر و سردرگمی اعتبارسنجی کمتری نسبت به رویکردهای سنتی Pre-Norm نشان می‌دهند. ارزیابی‌های معیار پایین‌دستی نشان می‌دهد که HybridNorm* در وظایف مختلف از Pre-Norm بهتر عمل می‌کند و بالاترین میانگین امتیاز را با بهبود در BasicArithmetic (+3.11)، HellaSwag (+1.71) و COPA (+3.78) به دست می‌آورد. در مدل MoE، HybridNorm* مزیت خود را با تلفات آموزش کمتر و سردرگمی اعتبارسنجی به طور مداوم در طول آموزش حفظ می‌کند. ارزیابی‌های وظایف پایین‌دستی برای مدل‌های MoE بهبودهایی را در وظایف استدلال فشرده مانند ARC-C (+2.35)، ARC-E (+2.40) و OpenbookQA (+0.81) نشان می‌دهد.

در نتیجه، محققان HybridNorm را معرفی کردند، یک پیشرفت قابل توجه در طراحی معماری ترانسفورمر برای حل مصالحه سنتی بین پایداری آموزش و عملکرد مدل. این روش به طور استراتژیک تکنیک‌های Pre-Norm و Post-Norm را در هر بلوک ترانسفورمر ترکیب می‌کند، نرمال‌سازی QKV را در مکانیسم توجه و Post-Norm را در شبکه پیشخور اعمال می‌کند. این استراتژی ترکیبی یک چارچوب نرمال‌سازی متعادل برای تثبیت جریان گرادیان در حالی که اثرات منظم‌سازی قوی را حفظ می‌کند، ایجاد می‌کند. علاوه بر این، دستاوردهای عملکرد ثابت در مقیاس‌های مختلف مدل، تطبیق‌پذیری و مقیاس‌پذیری HybridNorm را در طراحی ترانسفورمر برجسته می‌کند. به عنوان مدل‌های ترانسفورمر، HybridNorm یک راه حل عملی برای توسعه شبکه‌های عصبی در مقیاس بزرگ قوی‌تر و با عملکرد بهتر ارائه می‌دهد.


مقاله اصلی را بررسی کنید: مقاله. تمام اعتبار این تحقیق به محققان این پروژه تعلق دارد. همچنین، می‌توانید ما را در توییتر دنبال کنید و فراموش نکنید که به ساب‌ردیت 80k+ ML ما بپیوندید.