منبع باز مایکروسافت
منبع باز مایکروسافت

مایکروسافت از مدل زبانی فشرده ۱ بیتی که روی CPU اجرا می‌شود، رونمایی کرد

تحقیقات مایکروسافت مدل BitNet b1.58 2B4T را معرفی کرده است، یک مدل زبانی جدید با ۲ میلیارد پارامتر که به جای ۱۶ یا ۳۲ بیت معمول، فقط از ۱.۵۸ بیت در هر وزن استفاده می‌کند. با وجود اندازه فشرده‌اش، عملکردی مطابق با مدل‌های با دقت کامل دارد و به طور موثر بر روی پردازنده‌های گرافیکی (GPU) و پردازنده‌های مرکزی (CPU) اجرا می‌شود.

این مدل بر روی یک مجموعه داده بزرگ حاوی ۴ تریلیون توکن آموزش داده شده است و در طیف گسترده‌ای از وظایف، از جمله درک زبان، ریاضیات، کدنویسی و مکالمه، عملکرد خوبی دارد. مایکروسافت وزن‌های مدل را در Hugging Face به همراه کد منبع باز برای اجرای آن منتشر کرده است.

مایکروسافت در گزارش فنی اظهار داشت: "BitNet b1.58 2B4T به عملکردی همتراز با مدل‌های زبانی بزرگ (LLM) با وزن باز و دقت کامل با اندازه مشابه دست می‌یابد، در حالی که مزایای قابل توجهی در بهره‌وری محاسباتی، از جمله کاهش چشمگیر ردپای حافظه، مصرف انرژی و تأخیر در رمزگشایی ارائه می‌دهد."

معماری این مدل "برگرفته از مدل استاندارد ترانسفورمر است... که شامل تغییرات قابل توجهی بر اساس چارچوب BitNet می‌شود". نوآوری اصلی "جایگزینی لایه‌های خطی با دقت کامل استاندارد با لایه‌های BitLinear سفارشی" است، که در آن "وزن‌های مدل در طول گذر رو به جلو به ۱.۵۸ بیت کوانتیزه می‌شوند". این کوانتیزاسیون از یک "طرح کوانتیزاسیون میانگین مطلق (absmean) استفاده می‌کند، که وزن‌ها را به مقادیر سه‌تایی {-1، 0، +1} نگاشت می‌کند."

فعال‌سازی‌ها به اعداد صحیح ۸ بیتی با "استراتژی کوانتیزاسیون حداکثر مطلق (absmax)، که به ازای هر توکن اعمال می‌شود" کوانتیزه می‌شوند. نرمال‌سازی Subln برای افزایش بیشتر پایداری آموزش گنجانده شده است. زیرلایه‌های شبکه پیشخور (FFN) از فعال‌سازی ReLU مربع (ReLU²) استفاده می‌کنند.

تعبیه‌های موقعیتی چرخشی (RoPE) اطلاعات موقعیتی را وارد می‌کنند. مطابق با معماری‌هایی مانند LLaMA، تمام جملات بایاس از لایه‌های خطی و لایه‌های نرمال‌سازی حذف می‌شوند. توکنایزری که برای LLaMA 3 توسعه یافته است، یک طرح رمزگذاری جفتی بایت (BPE) در سطح بایت را با اندازه واژگان ۱۲۸۲۵۶ توکن پیاده‌سازی می‌کند.

فرآیند آموزش برای BitNet b1.58 2B4T از سه مرحله تشکیل شده است: پیش‌آموزش، تنظیم دقیق نظارت‌شده (SFT) و بهینه‌سازی ترجیح مستقیم (DPO).

BitNet b1.58 2B4T نشان می‌دهد که کاهش چشمگیر الزامات محاسباتی مدل‌های زبانی بزرگ بدون از دست دادن عملکرد امکان‌پذیر است. با معماری فشرده و نتایج رقابتی، گامی معنادار در جهت کارآمدتر و در دسترس‌تر کردن مدل‌های هوش مصنوعی است.