تحقیقات مایکروسافت مدل BitNet b1.58 2B4T را معرفی کرده است، یک مدل زبانی جدید با ۲ میلیارد پارامتر که به جای ۱۶ یا ۳۲ بیت معمول، فقط از ۱.۵۸ بیت در هر وزن استفاده میکند. با وجود اندازه فشردهاش، عملکردی مطابق با مدلهای با دقت کامل دارد و به طور موثر بر روی پردازندههای گرافیکی (GPU) و پردازندههای مرکزی (CPU) اجرا میشود.
این مدل بر روی یک مجموعه داده بزرگ حاوی ۴ تریلیون توکن آموزش داده شده است و در طیف گستردهای از وظایف، از جمله درک زبان، ریاضیات، کدنویسی و مکالمه، عملکرد خوبی دارد. مایکروسافت وزنهای مدل را در Hugging Face به همراه کد منبع باز برای اجرای آن منتشر کرده است.
مایکروسافت در گزارش فنی اظهار داشت: "BitNet b1.58 2B4T به عملکردی همتراز با مدلهای زبانی بزرگ (LLM) با وزن باز و دقت کامل با اندازه مشابه دست مییابد، در حالی که مزایای قابل توجهی در بهرهوری محاسباتی، از جمله کاهش چشمگیر ردپای حافظه، مصرف انرژی و تأخیر در رمزگشایی ارائه میدهد."
معماری این مدل "برگرفته از مدل استاندارد ترانسفورمر است... که شامل تغییرات قابل توجهی بر اساس چارچوب BitNet میشود". نوآوری اصلی "جایگزینی لایههای خطی با دقت کامل استاندارد با لایههای BitLinear سفارشی" است، که در آن "وزنهای مدل در طول گذر رو به جلو به ۱.۵۸ بیت کوانتیزه میشوند". این کوانتیزاسیون از یک "طرح کوانتیزاسیون میانگین مطلق (absmean) استفاده میکند، که وزنها را به مقادیر سهتایی {-1، 0، +1} نگاشت میکند."
فعالسازیها به اعداد صحیح ۸ بیتی با "استراتژی کوانتیزاسیون حداکثر مطلق (absmax)، که به ازای هر توکن اعمال میشود" کوانتیزه میشوند. نرمالسازی Subln برای افزایش بیشتر پایداری آموزش گنجانده شده است. زیرلایههای شبکه پیشخور (FFN) از فعالسازی ReLU مربع (ReLU²) استفاده میکنند.
تعبیههای موقعیتی چرخشی (RoPE) اطلاعات موقعیتی را وارد میکنند. مطابق با معماریهایی مانند LLaMA، تمام جملات بایاس از لایههای خطی و لایههای نرمالسازی حذف میشوند. توکنایزری که برای LLaMA 3 توسعه یافته است، یک طرح رمزگذاری جفتی بایت (BPE) در سطح بایت را با اندازه واژگان ۱۲۸۲۵۶ توکن پیادهسازی میکند.
فرآیند آموزش برای BitNet b1.58 2B4T از سه مرحله تشکیل شده است: پیشآموزش، تنظیم دقیق نظارتشده (SFT) و بهینهسازی ترجیح مستقیم (DPO).
BitNet b1.58 2B4T نشان میدهد که کاهش چشمگیر الزامات محاسباتی مدلهای زبانی بزرگ بدون از دست دادن عملکرد امکانپذیر است. با معماری فشرده و نتایج رقابتی، گامی معنادار در جهت کارآمدتر و در دسترستر کردن مدلهای هوش مصنوعی است.