نمای نزدیک از یک تراشه کامپیوتری که نشان‌دهنده قابلیت اجرای هوش مصنوعی بر روی سخت‌افزارهای کوچک است.
نمای نزدیک از یک تراشه کامپیوتری که نشان‌دهنده قابلیت اجرای هوش مصنوعی بر روی سخت‌افزارهای کوچک است.

مایکروسافت بزرگترین مدل زبانی یک بیتی را منتشر کرد: اجرای هوش مصنوعی قدرتمند بر روی سخت‌افزارهای قدیمی‌تر

محققان مایکروسافت ادعا می‌کنند که اولین مدل زبانی بزرگ یک بیتی با 2 میلیارد پارامتر را توسعه داده‌اند. این مدل، BitNet b1.58 2B4T، می‌تواند بر روی پردازنده‌های مرکزی تجاری مانند M2 اپل اجرا شود.

مایکروسافت در مخزن Hugging Face پروژه نوشت: «این مدل که بر روی پیکره‌ای از 4 تریلیون توکن آموزش داده شده است، نشان می‌دهد که چگونه مدل‌های زبانی یک بیتی بومی می‌توانند به عملکردی مشابه مدل‌های تمام‌دقت و وزن باز پیشرو با اندازه مشابه دست یابند، در حالی که مزایای قابل توجهی در کارایی محاسباتی (حافظه، انرژی، تأخیر) ارائه می‌دهند.»

چه چیزی مدل بیت‌نت را متفاوت می‌کند؟

بیت‌نت‌ها، یا مدل‌های زبانی بزرگ یک بیتی، نسخه‌های فشرده‌شده مدل‌های زبانی بزرگ هستند. مدل اصلی با مقیاس 2 میلیارد پارامتر که بر روی پیکره‌ای از 4 میلیارد توکن آموزش داده شد، به نسخه‌ای با کاهش چشمگیر نیازهای حافظه کوچک شد. تمام وزن‌ها به صورت یکی از سه مقدار -1، 0 و 1 بیان می‌شوند. سایر مدل‌های زبانی بزرگ ممکن است از فرمت‌های ممیز شناور 32 بیتی یا 16 بیتی استفاده کنند.

همچنین ببینید: بازیگران تهدید می‌توانند بسته‌های مخرب را به مدل‌های هوش مصنوعی تزریق کنند که در طول «کدنویسی ویبره» دوباره ظاهر می‌شوند.

در مقاله پژوهشی که به عنوان یک کار در حال پیشرفت در Arxiv ارسال شده است، محققان جزئیات نحوه ایجاد بیت‌نت را شرح می‌دهند. گروه‌های دیگر نیز قبلاً بیت‌نت‌هایی ایجاد کرده‌اند، اما محققان می‌گویند که بیشتر تلاش‌های آن‌ها یا روش‌های کمی‌سازی پس از آموزش (PTQ) هستند که بر روی مدل‌های تمام‌دقت از پیش آموزش‌دیده اعمال می‌شوند یا مدل‌های یک بیتی بومی هستند که از ابتدا آموزش داده شده‌اند و در مقیاس کوچکتری توسعه یافته‌اند. BitNet b1.58 2B4T یک مدل زبانی بزرگ یک بیتی بومی است که در مقیاس آموزش داده شده است. این مدل تنها 400 مگابایت فضا اشغال می‌کند، در حالی که سایر «مدل‌های کوچک» می‌توانند به 4.8 گیگابایت برسند.

عملکرد، هدف و محدودیت‌های مدل BitNet b1.58 2B4T

عملکرد در مقایسه با سایر مدل‌های هوش مصنوعی

به گفته مایکروسافت، BitNet b1.58 2B4T از سایر مدل‌های یک بیتی بهتر عمل می‌کند. BitNet b1.58 2B4T دارای حداکثر طول توالی 4096 توکن است. مایکروسافت ادعا می‌کند که از مدل‌های کوچک مانند Llama 3.2 1B متا یا Gemma 3 1B گوگل بهتر عمل می‌کند.

هدف محققان از این بیت‌نت

هدف مایکروسافت این است که با ایجاد نسخه‌هایی که بر روی دستگاه‌های لبه، در محیط‌های با منابع محدود یا در برنامه‌های کاربردی بلادرنگ اجرا می‌شوند، مدل‌های زبانی بزرگ را برای افراد بیشتری در دسترس قرار دهد.

با این حال، اجرای BitNet b1.58 2B4T هنوز ساده نیست. این مدل به سخت‌افزاری سازگار با چارچوب bitnet.cpp مایکروسافت نیاز دارد. اجرای آن بر روی یک کتابخانه استاندارد ترانسفورمرها هیچ یک از مزایای مربوط به سرعت، تأخیر یا مصرف انرژی را به همراه نخواهد داشت. BitNet b1.58 2B4T بر روی پردازنده‌های گرافیکی (GPU) اجرا نمی‌شود، در حالی که اکثر مدل‌های هوش مصنوعی این‌گونه هستند.

بعدش چی؟

محققان مایکروسافت قصد دارند آموزش مدل‌های یک بیتی بومی بزرگتر (پارامترهای 7B، 13B و بیشتر) را بررسی کنند. آن‌ها خاطرنشان می‌کنند که بیشتر زیرساخت‌های هوش مصنوعی امروزی فاقد سخت‌افزار مناسب برای مدل‌های یک بیتی هستند، بنابراین قصد دارند «شتاب‌دهنده‌های سخت‌افزاری آینده را به طور مشترک طراحی کنند» که به طور خاص برای هوش مصنوعی فشرده‌شده طراحی شده‌اند. محققان همچنین قصد دارند:

  • افزایش طول متن
  • بهبود عملکرد در وظایف استدلال زنجیره‌ای طولانی‌مدت
  • افزودن پشتیبانی از چندین زبان غیر از انگلیسی
  • ادغام مدل‌های یک بیتی در معماری‌های چندوجهی
  • درک بهتر نظریه پشت اینکه چرا آموزش یک بیتی در مقیاس، بازدهی ایجاد می‌کند.