نمودار مقایسه عملکرد AdamW و Muon در وظایف مختلف الگوریتمی
نمودار مقایسه عملکرد AdamW و Muon در وظایف مختلف الگوریتمی

بهینه‌ساز موآن به طور قابل توجهی درک را در ترانسفورمرها تسریع می‌کند: پژوهشگران مایکروسافت تأثیر بهینه‌ساز بر تعمیم تاخیری را بررسی می‌کنند

بازبینی چالش درک

در سال‌های اخیر، پدیده «درک» (grokking) - که در آن مدل‌های یادگیری عمیق یک انتقال تاخیری اما ناگهانی از حفظ کردن به تعمیم نشان می‌دهند - باعث بررسی مجدد پویایی‌های آموزش شده است. درک، که در ابتدا در وظایف الگوریتمی کوچک مانند حساب پیمانه‌ای مشاهده شد، نشان می‌دهد که مدل‌ها می‌توانند به دقت آموزشی تقریباً کامل برسند در حالی که عملکرد اعتبارسنجی برای یک دوره طولانی ضعیف باقی می‌ماند. در نهایت، و اغلب به طور ناگهانی، مدل شروع به تعمیم می‌کند. درک اینکه چه چیزی بر این انتقال حاکم است، نه تنها برای قابلیت تفسیر، بلکه برای بهینه‌سازی کارایی آموزش در شبکه‌های عمیق نیز مهم است. مطالعات قبلی نقش پوسیدگی وزن و منظم‌سازی را برجسته کرده‌اند. با این حال، تأثیر خاص بهینه‌سازها بر این فرآیند کمتر مورد بررسی قرار گرفته است.

بررسی اثرات بهینه‌ساز بر درک

این مقاله هوش مصنوعی از مایکروسافت تأثیر انتخاب بهینه‌ساز بر رفتار درک را بررسی می‌کند. به طور خاص، عملکرد بهینه‌ساز AdamW که به طور گسترده مورد استفاده قرار می‌گیرد را با Muon، یک الگوریتم بهینه‌سازی جدیدتر که شامل محدودیت‌های نرم طیفی و اطلاعات مرتبه دوم است، مقایسه می‌کند. این مطالعه بررسی می‌کند که آیا این ویژگی‌ها به Muon امکان می‌دهد فاز تعمیم را تسریع کند یا خیر.

این آزمایش‌ها شامل هفت وظیفه الگوریتمی - عمدتاً عملیات حساب پیمانه‌ای و طبقه‌بندی توازن - با استفاده از معماری مدرن ترانسفورمر است. هر کار به گونه‌ای طراحی شده است که به طور قابل اعتماد در شرایط آموزشی مناسب، درک را نشان دهد. این تحقیق همچنین شامل یک تجزیه و تحلیل مقایسه‌ای از انواع سافت‌مکس (سافت‌مکس استاندارد، استیبل‌مکس و اسپارس‌مکس) برای ارزیابی این است که آیا نرمال‌سازی خروجی نقش ثانویه در تعدیل پویایی‌های آموزش ایفا می‌کند یا خیر. با این حال، تمرکز اصلی تحقیق بر روی بهینه‌ساز است.

طراحی معماری و بهینه‌سازی

معماری مدل زیربنایی از اجزای استاندارد ترانسفورمر، پیاده‌سازی شده در PyTorch، استفاده می‌کند. این شامل خود-توجه چند-سر (multi-head self-attention)، جاسازی‌های موقعیتی چرخشی (RoPE)، نرمال‌سازی RMS، فعال‌سازی‌های SiLU و منظم‌سازی مبتنی بر دراپ‌آوت است. توکن‌های ورودی - مقادیر یا عملگرهای عددی - از طریق جاسازی‌های هویت ساده رمزگذاری می‌شوند.

تفاوت اصلی در رفتار بهینه‌ساز نهفته است:

  • AdamW، یک خط مبنا در گردش‌کارهای یادگیری عمیق معاصر، از نرخ‌های یادگیری تطبیقی با پوسیدگی وزن جدا شده استفاده می‌کند.
  • Muon، در مقابل، گرادیان‌های متعامد شده را اعمال می‌کند، محدودیت‌های نرم طیفی را برای تثبیت آموزش اعمال می‌کند و انحنای مرتبه دوم را برای به‌روزرسانی‌های آموزنده‌تر تقریب می‌زند.

این مکانیسم‌ها به منظور ترویج کاوش گسترده‌تر در طول بهینه‌سازی، کاهش ناپایداری (به عنوان مثال، "سقوط سافت‌مکس") و همگام‌سازی پیشرفت یادگیری در سراسر لایه‌ها در نظر گرفته شده‌اند. توانایی Muon برای تنظیم بزرگی به‌روزرسانی مطابق با ابعاد لایه، به ویژه در جلوگیری از مسیرهای حفظ کردن ناکارآمد مرتبط است.

سه پیکربندی سافت‌مکس - سافت‌مکس (Softmax)، استیبل‌مکس (Stablemax) و اسپارس‌مکس (Sparsemax) - برای ارزیابی اینکه آیا پایداری عددی یا پراکندگی توزیع خروجی بر درک تأثیر می‌گذارد، گنجانده شده‌اند. این به اطمینان حاصل می‌کند که اثرات مشاهده شده عمدتاً از پویایی‌های بهینه‌ساز ناشی می‌شوند تا تفاوت‌های ظریف فعال‌سازی خروجی.

ارزیابی تجربی و نتایج

پروتکل تجربی این مطالعه به روشی طراحی شده است. هر ترکیب بهینه‌ساز-سافت‌مکس-کار در چندین بذر ارزیابی می‌شود تا از استحکام آماری اطمینان حاصل شود. درک به طور عملیاتی به عنوان اولین دوره تعریف می‌شود که در آن دقت اعتبارسنجی از ۹۵٪ پس از تثبیت دقت آموزش فراتر می‌رود.

نتایج نشان‌دهنده یک مزیت ثابت و از نظر آماری معنی‌دار برای Muon است. به طور متوسط، Muon در 102.89 دوره به آستانه درک می‌رسد، در مقایسه با 153.09 دوره برای AdamW. این تفاوت نه تنها از نظر عددی بزرگ است، بلکه از نظر آماری نیز دقیق است (t = 5.0175, p ˜ 6.33e-8). علاوه بر این، Muon توزیع تنگ‌تری از دوره‌های درک را در همه شرایط نشان می‌دهد، که نشان‌دهنده مسیرهای آموزشی قابل پیش‌بینی‌تر است.

همه وظایف بر روی پردازنده‌های گرافیکی NVIDIA H100 با استفاده از یک کدبیس واحد و پیکربندی‌های استاندارد انجام شد. وظایف شامل جمع، ضرب، تقسیم، توان، GCD پیمانه‌ای و یک وظیفه توازن ۱۰ بیتی است. اندازه مجموعه داده‌ها از ۱۰۲۴ تا ۹۴۰۹ مثال متغیر بود، با تقسیم آموزش-اعتبارسنجی تنظیم شده برای هر کار برای حفظ سازگاری.

نتیجه‌گیری

یافته‌ها شواهد محکمی ارائه می‌دهند که هندسه بهینه‌ساز به طور قابل توجهی بر ظهور تعمیم در مدل‌های بیش از حد پارامتریزه شده تأثیر می‌گذارد. Muon با هدایت مسیر بهینه‌سازی از طریق به‌روزرسانی‌های آگاه از مرتبه دوم و محدودیت‌های نرم طیفی، به نظر می‌رسد که مسیر مستقیم‌تری را برای کشف ساختار داده زیربنایی تسهیل می‌کند و از مراحل بیش‌برازش طولانی‌مدت عبور می‌کند.

این مطالعه نیاز گسترده‌تری را برای در نظر گرفتن استراتژی بهینه‌سازی به عنوان یک عامل درجه یک در طراحی آموزش عصبی برجسته می‌کند. در حالی که کار قبلی بر داده‌ها و منظم‌سازی تأکید داشت، این نتایج نشان می‌دهد که معماری بهینه‌ساز خود می‌تواند نقش محوری در شکل دادن به پویایی‌های آموزش ایفا کند.