بازبینی چالش درک
در سالهای اخیر، پدیده «درک» (grokking) - که در آن مدلهای یادگیری عمیق یک انتقال تاخیری اما ناگهانی از حفظ کردن به تعمیم نشان میدهند - باعث بررسی مجدد پویاییهای آموزش شده است. درک، که در ابتدا در وظایف الگوریتمی کوچک مانند حساب پیمانهای مشاهده شد، نشان میدهد که مدلها میتوانند به دقت آموزشی تقریباً کامل برسند در حالی که عملکرد اعتبارسنجی برای یک دوره طولانی ضعیف باقی میماند. در نهایت، و اغلب به طور ناگهانی، مدل شروع به تعمیم میکند. درک اینکه چه چیزی بر این انتقال حاکم است، نه تنها برای قابلیت تفسیر، بلکه برای بهینهسازی کارایی آموزش در شبکههای عمیق نیز مهم است. مطالعات قبلی نقش پوسیدگی وزن و منظمسازی را برجسته کردهاند. با این حال، تأثیر خاص بهینهسازها بر این فرآیند کمتر مورد بررسی قرار گرفته است.
بررسی اثرات بهینهساز بر درک
این مقاله هوش مصنوعی از مایکروسافت تأثیر انتخاب بهینهساز بر رفتار درک را بررسی میکند. به طور خاص، عملکرد بهینهساز AdamW که به طور گسترده مورد استفاده قرار میگیرد را با Muon، یک الگوریتم بهینهسازی جدیدتر که شامل محدودیتهای نرم طیفی و اطلاعات مرتبه دوم است، مقایسه میکند. این مطالعه بررسی میکند که آیا این ویژگیها به Muon امکان میدهد فاز تعمیم را تسریع کند یا خیر.
این آزمایشها شامل هفت وظیفه الگوریتمی - عمدتاً عملیات حساب پیمانهای و طبقهبندی توازن - با استفاده از معماری مدرن ترانسفورمر است. هر کار به گونهای طراحی شده است که به طور قابل اعتماد در شرایط آموزشی مناسب، درک را نشان دهد. این تحقیق همچنین شامل یک تجزیه و تحلیل مقایسهای از انواع سافتمکس (سافتمکس استاندارد، استیبلمکس و اسپارسمکس) برای ارزیابی این است که آیا نرمالسازی خروجی نقش ثانویه در تعدیل پویاییهای آموزش ایفا میکند یا خیر. با این حال، تمرکز اصلی تحقیق بر روی بهینهساز است.
طراحی معماری و بهینهسازی
معماری مدل زیربنایی از اجزای استاندارد ترانسفورمر، پیادهسازی شده در PyTorch، استفاده میکند. این شامل خود-توجه چند-سر (multi-head self-attention)، جاسازیهای موقعیتی چرخشی (RoPE)، نرمالسازی RMS، فعالسازیهای SiLU و منظمسازی مبتنی بر دراپآوت است. توکنهای ورودی - مقادیر یا عملگرهای عددی - از طریق جاسازیهای هویت ساده رمزگذاری میشوند.
تفاوت اصلی در رفتار بهینهساز نهفته است:
- AdamW، یک خط مبنا در گردشکارهای یادگیری عمیق معاصر، از نرخهای یادگیری تطبیقی با پوسیدگی وزن جدا شده استفاده میکند.
- Muon، در مقابل، گرادیانهای متعامد شده را اعمال میکند، محدودیتهای نرم طیفی را برای تثبیت آموزش اعمال میکند و انحنای مرتبه دوم را برای بهروزرسانیهای آموزندهتر تقریب میزند.
این مکانیسمها به منظور ترویج کاوش گستردهتر در طول بهینهسازی، کاهش ناپایداری (به عنوان مثال، "سقوط سافتمکس") و همگامسازی پیشرفت یادگیری در سراسر لایهها در نظر گرفته شدهاند. توانایی Muon برای تنظیم بزرگی بهروزرسانی مطابق با ابعاد لایه، به ویژه در جلوگیری از مسیرهای حفظ کردن ناکارآمد مرتبط است.
سه پیکربندی سافتمکس - سافتمکس (Softmax)، استیبلمکس (Stablemax) و اسپارسمکس (Sparsemax) - برای ارزیابی اینکه آیا پایداری عددی یا پراکندگی توزیع خروجی بر درک تأثیر میگذارد، گنجانده شدهاند. این به اطمینان حاصل میکند که اثرات مشاهده شده عمدتاً از پویاییهای بهینهساز ناشی میشوند تا تفاوتهای ظریف فعالسازی خروجی.
ارزیابی تجربی و نتایج
پروتکل تجربی این مطالعه به روشی طراحی شده است. هر ترکیب بهینهساز-سافتمکس-کار در چندین بذر ارزیابی میشود تا از استحکام آماری اطمینان حاصل شود. درک به طور عملیاتی به عنوان اولین دوره تعریف میشود که در آن دقت اعتبارسنجی از ۹۵٪ پس از تثبیت دقت آموزش فراتر میرود.
نتایج نشاندهنده یک مزیت ثابت و از نظر آماری معنیدار برای Muon است. به طور متوسط، Muon در 102.89 دوره به آستانه درک میرسد، در مقایسه با 153.09 دوره برای AdamW. این تفاوت نه تنها از نظر عددی بزرگ است، بلکه از نظر آماری نیز دقیق است (t = 5.0175, p ˜ 6.33e-8). علاوه بر این، Muon توزیع تنگتری از دورههای درک را در همه شرایط نشان میدهد، که نشاندهنده مسیرهای آموزشی قابل پیشبینیتر است.
همه وظایف بر روی پردازندههای گرافیکی NVIDIA H100 با استفاده از یک کدبیس واحد و پیکربندیهای استاندارد انجام شد. وظایف شامل جمع، ضرب، تقسیم، توان، GCD پیمانهای و یک وظیفه توازن ۱۰ بیتی است. اندازه مجموعه دادهها از ۱۰۲۴ تا ۹۴۰۹ مثال متغیر بود، با تقسیم آموزش-اعتبارسنجی تنظیم شده برای هر کار برای حفظ سازگاری.
نتیجهگیری
یافتهها شواهد محکمی ارائه میدهند که هندسه بهینهساز به طور قابل توجهی بر ظهور تعمیم در مدلهای بیش از حد پارامتریزه شده تأثیر میگذارد. Muon با هدایت مسیر بهینهسازی از طریق بهروزرسانیهای آگاه از مرتبه دوم و محدودیتهای نرم طیفی، به نظر میرسد که مسیر مستقیمتری را برای کشف ساختار داده زیربنایی تسهیل میکند و از مراحل بیشبرازش طولانیمدت عبور میکند.
این مطالعه نیاز گستردهتری را برای در نظر گرفتن استراتژی بهینهسازی به عنوان یک عامل درجه یک در طراحی آموزش عصبی برجسته میکند. در حالی که کار قبلی بر دادهها و منظمسازی تأکید داشت، این نتایج نشان میدهد که معماری بهینهساز خود میتواند نقش محوری در شکل دادن به پویاییهای آموزش ایفا کند.