ترانسفورمرها به عنوان پایه و اساس مدلهای زبانی بزرگ (LLM)، انقلابی در پردازش زبان طبیعی ایجاد کردهاند و در مدلسازی وابستگیهای طولانیمدت از طریق مکانیسمهای خود-توجهی (self-attention) برتری دارند. با این حال، با عمیقتر و پیچیدهتر شدن این مدلها، پایداری آموزش یک چالش مهم است که به طور مستقیم بر عملکرد تأثیر میگذارد. محققان با یک مصالحه دشوار بین دو استراتژی اصلی نرمالسازی روبرو هستند: نرمالسازی پیش از لایه (Pre-Norm) و نرمالسازی پس از لایه (Post-Norm). Pre-Norm پایداری آموزش را بهبود میبخشد اما عملکرد نهایی مدل را به خطر میاندازد، در حالی که Post-Norm تعمیم و عملکرد برتر را به قیمت دشواری آموزش ارائه میدهد. این دوراهی پایداری-عملکرد مانع پیشرفت معماریهای ترانسفورمر شده است.
روشهای موجود سعی در ارتقاء معماریهای ترانسفورمر از نظر کارایی محاسباتی و بیان مدل داشتهاند. اصلاحات معماری مانند Multi-head Latent Attention (MLA) و Mixture of Experts (MoE) عملکرد را در وظایف مختلف بهبود دادهاند، اما نیاز به یکپارچهسازی دقیق با لایههای نرمالسازی دارند. در انواع نرمالسازی، روشهایی مانند RMSNorm با پرداختن به تغییر کوواریت داخلی با استفاده از آمار ریشه میانگین مربع، اثربخشی خود را در زمینههای خاص نشان دادهاند. در مورد نرمالسازی توجه، QK-Norm با نرمالسازی اجزای پرسش و کلید، ثبات را افزایش میدهد، در حالی که QKV-Norm این رویکرد را برای گنجاندن اجزای مقدار گسترش میدهد. راهحلهایی مانند DeepNorm با مقیاسبندی اتصالات باقیمانده، ناپایداری آموزش را برطرف میکنند، در حالی که Mix-LN از Post-Norm در لایههای قبلی و Pre-Norm در لایههای عمیقتر استفاده میکند.
محققانی از دانشگاه پکن، SeedFoundation-Model ByteDance و دانشگاه اقتصاد و تجارت پایتخت، HybridNorm را پیشنهاد کردهاند، یک استراتژی نرمالسازی برای ترکیب موثر نقاط قوت رویکردهای Pre-Norm و Post-Norm در معماریهای ترانسفورمر. این روش یک تکنیک نرمالسازی دوگانه را در هر بلوک ترانسفورمر پیادهسازی میکند: اعمال نرمالسازی QKV در مکانیسم توجه در حالی که از Post-Norm در شبکه پیشخور (FFN) استفاده میکند. این ترکیب استراتژیک به مصالحه دیرینه پایداری-عملکرد میپردازد که توسعه مدل ترانسفورمر را به چالش کشیده است. این رویکرد به ویژه برای LLMها موثر است، جایی که پایداری آموزش و بهینهسازی عملکرد بسیار مهم است.
HybridNorm در دو سری مدل ارزیابی میشود: مدلهای متراکم (550 میلیون و 1 میلیارد پارامتر) و مدلهای MoE. مدل متراکم 1B تقریباً 1.27 میلیارد پارامتر با معماری مشابه Llama 3.2 دارد. برای نوع MoE، محققان چارچوب OLMoE را پیادهسازی کردند، که فقط 1.3 میلیارد پارامتر از مجموع 6.9 میلیارد را فعال میکند. مدل متراکم 550M دارای ابعاد مدل 1536، ابعاد FFN 4096 و 16 سر توجه است. مدل بزرگتر 1.2B این ابعاد را به ترتیب به 2048 و 9192 با 32 سر توجه گسترش میدهد. مدل MoE-1B-7B یک پیکربندی تخصصی با 16 سر توجه و ابعاد مدل 2048 پیادهسازی میکند و به طور انتخابی 8 متخصص را از مجموع 64 فعال میکند و تخصیص کارآمدتر منابع محاسباتی را امکانپذیر میکند.
نتایج تجربی عملکرد برتر HybridNorm را در مدلهای متراکم و MoE نشان میدهد. در ارزیابیهای مدل متراکم، هر دو پیکربندی HybridNorm و HybridNorm* به طور مداوم تلفات آموزش کمتر و سردرگمی اعتبارسنجی کمتری نسبت به رویکردهای سنتی Pre-Norm نشان میدهند. ارزیابیهای معیار پاییندستی نشان میدهد که HybridNorm* در وظایف مختلف از Pre-Norm بهتر عمل میکند و بالاترین میانگین امتیاز را با بهبود در BasicArithmetic (+3.11)، HellaSwag (+1.71) و COPA (+3.78) به دست میآورد. در مدل MoE، HybridNorm* مزیت خود را با تلفات آموزش کمتر و سردرگمی اعتبارسنجی به طور مداوم در طول آموزش حفظ میکند. ارزیابیهای وظایف پاییندستی برای مدلهای MoE بهبودهایی را در وظایف استدلال فشرده مانند ARC-C (+2.35)، ARC-E (+2.40) و OpenbookQA (+0.81) نشان میدهد.
در نتیجه، محققان HybridNorm را معرفی کردند، یک پیشرفت قابل توجه در طراحی معماری ترانسفورمر برای حل مصالحه سنتی بین پایداری آموزش و عملکرد مدل. این روش به طور استراتژیک تکنیکهای Pre-Norm و Post-Norm را در هر بلوک ترانسفورمر ترکیب میکند، نرمالسازی QKV را در مکانیسم توجه و Post-Norm را در شبکه پیشخور اعمال میکند. این استراتژی ترکیبی یک چارچوب نرمالسازی متعادل برای تثبیت جریان گرادیان در حالی که اثرات منظمسازی قوی را حفظ میکند، ایجاد میکند. علاوه بر این، دستاوردهای عملکرد ثابت در مقیاسهای مختلف مدل، تطبیقپذیری و مقیاسپذیری HybridNorm را در طراحی ترانسفورمر برجسته میکند. به عنوان مدلهای ترانسفورمر، HybridNorm یک راه حل عملی برای توسعه شبکههای عصبی در مقیاس بزرگ قویتر و با عملکرد بهتر ارائه میدهد.
مقاله اصلی را بررسی کنید: مقاله. تمام اعتبار این تحقیق به محققان این پروژه تعلق دارد. همچنین، میتوانید ما را در توییتر دنبال کنید و فراموش نکنید که به سابردیت 80k+ ML ما بپیوندید.