محققان مایکروسافت ادعا میکنند که اولین مدل زبانی بزرگ یک بیتی با 2 میلیارد پارامتر را توسعه دادهاند. این مدل، BitNet b1.58 2B4T، میتواند بر روی پردازندههای مرکزی تجاری مانند M2 اپل اجرا شود.
مایکروسافت در مخزن Hugging Face پروژه نوشت: «این مدل که بر روی پیکرهای از 4 تریلیون توکن آموزش داده شده است، نشان میدهد که چگونه مدلهای زبانی یک بیتی بومی میتوانند به عملکردی مشابه مدلهای تمامدقت و وزن باز پیشرو با اندازه مشابه دست یابند، در حالی که مزایای قابل توجهی در کارایی محاسباتی (حافظه، انرژی، تأخیر) ارائه میدهند.»
چه چیزی مدل بیتنت را متفاوت میکند؟
بیتنتها، یا مدلهای زبانی بزرگ یک بیتی، نسخههای فشردهشده مدلهای زبانی بزرگ هستند. مدل اصلی با مقیاس 2 میلیارد پارامتر که بر روی پیکرهای از 4 میلیارد توکن آموزش داده شد، به نسخهای با کاهش چشمگیر نیازهای حافظه کوچک شد. تمام وزنها به صورت یکی از سه مقدار -1، 0 و 1 بیان میشوند. سایر مدلهای زبانی بزرگ ممکن است از فرمتهای ممیز شناور 32 بیتی یا 16 بیتی استفاده کنند.
همچنین ببینید: بازیگران تهدید میتوانند بستههای مخرب را به مدلهای هوش مصنوعی تزریق کنند که در طول «کدنویسی ویبره» دوباره ظاهر میشوند.
در مقاله پژوهشی که به عنوان یک کار در حال پیشرفت در Arxiv ارسال شده است، محققان جزئیات نحوه ایجاد بیتنت را شرح میدهند. گروههای دیگر نیز قبلاً بیتنتهایی ایجاد کردهاند، اما محققان میگویند که بیشتر تلاشهای آنها یا روشهای کمیسازی پس از آموزش (PTQ) هستند که بر روی مدلهای تمامدقت از پیش آموزشدیده اعمال میشوند یا مدلهای یک بیتی بومی هستند که از ابتدا آموزش داده شدهاند و در مقیاس کوچکتری توسعه یافتهاند. BitNet b1.58 2B4T یک مدل زبانی بزرگ یک بیتی بومی است که در مقیاس آموزش داده شده است. این مدل تنها 400 مگابایت فضا اشغال میکند، در حالی که سایر «مدلهای کوچک» میتوانند به 4.8 گیگابایت برسند.
عملکرد، هدف و محدودیتهای مدل BitNet b1.58 2B4T
عملکرد در مقایسه با سایر مدلهای هوش مصنوعی
به گفته مایکروسافت، BitNet b1.58 2B4T از سایر مدلهای یک بیتی بهتر عمل میکند. BitNet b1.58 2B4T دارای حداکثر طول توالی 4096 توکن است. مایکروسافت ادعا میکند که از مدلهای کوچک مانند Llama 3.2 1B متا یا Gemma 3 1B گوگل بهتر عمل میکند.
هدف محققان از این بیتنت
هدف مایکروسافت این است که با ایجاد نسخههایی که بر روی دستگاههای لبه، در محیطهای با منابع محدود یا در برنامههای کاربردی بلادرنگ اجرا میشوند، مدلهای زبانی بزرگ را برای افراد بیشتری در دسترس قرار دهد.
با این حال، اجرای BitNet b1.58 2B4T هنوز ساده نیست. این مدل به سختافزاری سازگار با چارچوب bitnet.cpp مایکروسافت نیاز دارد. اجرای آن بر روی یک کتابخانه استاندارد ترانسفورمرها هیچ یک از مزایای مربوط به سرعت، تأخیر یا مصرف انرژی را به همراه نخواهد داشت. BitNet b1.58 2B4T بر روی پردازندههای گرافیکی (GPU) اجرا نمیشود، در حالی که اکثر مدلهای هوش مصنوعی اینگونه هستند.
بعدش چی؟
محققان مایکروسافت قصد دارند آموزش مدلهای یک بیتی بومی بزرگتر (پارامترهای 7B، 13B و بیشتر) را بررسی کنند. آنها خاطرنشان میکنند که بیشتر زیرساختهای هوش مصنوعی امروزی فاقد سختافزار مناسب برای مدلهای یک بیتی هستند، بنابراین قصد دارند «شتابدهندههای سختافزاری آینده را به طور مشترک طراحی کنند» که به طور خاص برای هوش مصنوعی فشردهشده طراحی شدهاند. محققان همچنین قصد دارند:
- افزایش طول متن
- بهبود عملکرد در وظایف استدلال زنجیرهای طولانیمدت
- افزودن پشتیبانی از چندین زبان غیر از انگلیسی
- ادغام مدلهای یک بیتی در معماریهای چندوجهی
- درک بهتر نظریه پشت اینکه چرا آموزش یک بیتی در مقیاس، بازدهی ایجاد میکند.