معرفی بونسای ۱ بیتی: اولین مدل‌های زبانی بزرگ ۱ بیتی قابل استفاده تجاری

امروز، ما مدل‌های بونسای ۱ بیتی را معرفی می‌کنیم که هوش پیشرفته را به دستگاه‌هایی می‌آورند که مردم واقعاً در آن‌ها زندگی و کار می‌کنند.

در دهه‌ی گذشته، هوش مصنوعی مسیر مشخصی را طی کرده است: برای ساخت مدل‌های هوشمندتر، آن‌ها را بزرگ‌تر می‌کنید. پارامترهای بیشتر، پردازنده‌های گرافیکی (GPU) بیشتر، توان بیشتر، حافظه بیشتر و هزینه بیشتر. این رویکرد موفقیت‌آمیز بود و مدل‌هایی را به ما داد که می‌توانند در زمینه‌های وسیع استدلال کنند، مسائل دشوار را حل کنند و نرم‌افزار، تحقیق و کارهای خلاقانه را با کیفیتی چشمگیر تولید کنند.

اما این رویکرد همچنین یک محدودیت ساختاری عمیق برای آینده هوش مصنوعی ایجاد کرد: توانمندترین هوش در خوشه‌های عظیم و زیرساخت‌های تخصصی محبوس شد. با این حال، برخی از مهم‌ترین کاربردهای هوش مصنوعی به مراکز داده محدود نمی‌شوند. آن‌ها روی گوشی‌ها، لپ‌تاپ‌ها، وسایل نقلیه، ربات‌ها، محیط‌های امن سازمانی و دستگاه‌های لبه اتفاق می‌افتند.

استقرار هوش مصنوعی دیگر با جایی که به آن نیاز است، همخوانی ندارد. امروز، این وضعیت تغییر می‌کند.

مسیر جدید رو به جلو: تمرکز هوش

امروز، ما پریزم‌ام‌ال را معرفی می‌کنیم، یک آزمایشگاه هوش مصنوعی که متمرکزترین شکل هوش را می‌سازد. ما که از تحقیقات پیشگامانه توسعه‌یافته در کلتک (Caltech) بیرون آمده‌ایم، با این باور اصلی هدایت می‌شویم که جهش‌های بزرگ بعدی در هوش مصنوعی نه تنها با افزایش صرف تعداد پارامترها، بلکه با بهبودهای مرتبه بزرگی در چگالی هوش (intelligence density) به دست خواهند آمد.

تمرکز هوش به معنای افزایش هوش مفید است که یک مدل به ازای هر واحد اندازه، توان و ردپای استقرار ارائه می‌دهد. این امر به عوامل مختلفی بستگی دارد: سخت‌افزاری که مدل روی آن اجرا می‌شود، جزئیات بار کاری، اما مهم‌تر از همه، اندازه مدل. به همین دلیل، در پریزم‌ام‌ال، ما بر بهینه‌سازی چگالی هوش، یعنی میزان هوشی که یک مدل می‌تواند در هر واحد اندازه (بر حسب گیگابایت) ارائه دهد، تمرکز کرده‌ایم. این یک معیار عملی است که تعیین می‌کند آیا هوش مصنوعی پیشرفته در زیرساخت‌های گران‌قیمت قفل می‌ماند یا در هر کجا که نیاز باشد در دسترس قرار می‌گیرد.

کلاس جدید مدل‌های ما برای دستیابی به دقت آماده تولید در دستگاه‌های لبه طراحی شده‌اند و فناوری اصلی ما هوش تغییر دهنده صنعت را در فضای ابری فعال خواهد کرد.

یک مدل ۱ بیتی واقعی

بونسای ۱ بیتی ۸ میلیارد پارامتری، طراحی اختصاصی مدل ۱ بیتی را در کل شبکه پیاده‌سازی می‌کند: لایه‌های جاسازی (embeddings)، لایه‌های توجه (attention layers)، لایه‌های MLP و سر LM همگی ۱ بیتی هستند. هیچ راه فرار با دقت بالاتر وجود ندارد. این یک مدل ۱ بیتی واقعی، از ابتدا تا انتها، با ۸.۲ میلیارد پارامتر است.

علی‌رغم اینکه ۱۴ برابر کوچک‌تر از مدل‌های ۸ میلیارد پارامتری (۱۶ بیتی) با دقت کامل در کلاس پارامتری خود است، عملکرد رقابتی در بنچمارک‌های استاندارد ارائه می‌دهد، در حالی که با کارایی رادیکال بالاتری عمل می‌کند.

این موضوع مهم است زیرا فشرده‌سازی مدل در طول تاریخ با بده‌بستان‌های دردناکی همراه بوده است. مدل‌های با بیت پایین اغلب قابلیت‌های زیادی را در پیروی از دستورالعمل‌ها، استدلال چند مرحله‌ای و استفاده قابل اعتماد از ابزارها از دست می‌دهند تا بتوانند به عنوان پایه و اساس محصولات جدی عمل کنند. در عمل، آن‌ها برای استقرار عملی کافی نیستند.

بونسای این وضعیت را تغییر می‌دهد. این مدل نشان می‌دهد که مدل‌های ۱ بیتی نیازی به سازش‌های محدود ندارند. آن‌ها می‌توانند سیستم‌های توانا و آماده تولید باشند.

نمودار مقایسه امتیازات بنچمارک مدل بونسای ۱ بیتی ۸ میلیارد پارامتری با سایر مدل‌ها در همان کلاس پارامتری. — شکل ۲: امتیازات بنچمارک مدل بونسای ۱ بیتی ۸ میلیارد پارامتری در مقایسه با سایر مدل‌ها در همان کلاس پارامتری.

چگالی هوش

در مجموعه گسترده‌ای از بنچمارک‌ها، بونسای ۱ بیتی ۸ میلیارد پارامتری، بهبود سطح قابلیت به ازای اندازه مدل را نه تنها یک گام کوچک رو به جلو، بلکه یک جهش بزرگ ارائه می‌دهد. برای ثبت دقیق این موضوع، ما چگالی هوش را اندازه‌گیری می‌کنیم.

ما چگالی هوش را به عنوان منفی لگاریتم نرخ خطای متوسط مدل (در همان مجموعه بنچمارک) تقسیم بر اندازه مدل تعریف می‌کنیم. اگرچه این معیار دستاوردهای کوچک‌تری را برای بونسای نسبت به نمرات خام متوسط بنچمارک (مثلاً ۱۰.۶ برابر در مقابل ۱۲.۷ برابر بیشتر از Qwen3 8B) نشان می‌دهد، اما معتقدیم که دیدگاه واقعی‌تری از هوش ارائه می‌دهد. برخلاف میانگین‌های ساده بنچمارک، این معیار به بهبودهای نزدیک به دقت بالا، جایی که معمولاً دستیابی به دستاوردهای بیشتر دشوارتر است، ارزش بیشتری می‌دهد تا بهبودهای هم‌اندازه در سطوح عملکرد پایین‌تر.

با این معیار، بونسای ۱ بیتی ۸ میلیارد پارامتری به امتیاز چگالی هوش ۱.۰۶ گیگابایت دست می‌یابد. در میان مدل‌های نزدیک از نظر تعداد پارامتر، نزدیک‌ترین مدل، Qwen3 8B، امتیاز ۰.۱۰ گیگابایت را کسب می‌کند. بونسای نه تنها در این معیار پیشتاز است؛ بلکه در یک قلمرو متفاوت قرار دارد.

در میانگین‌های خام بنچمارک، بونسای ۱ بیتی ۸ میلیارد پارامتری با مدل‌های پیشرو کلاس ۸ میلیارد پارامتری رقابت می‌کند، اما این کار را با حجم حافظه تنها ۱.۱۵ گیگابایت انجام می‌دهد که تقریباً ۱۲ تا ۱۴ برابر کوچک‌تر از همتایان خود است. این هسته چگالی هوش است: نه تنها قابلیت قوی، بلکه قابلیت قوی که به شکلی به مراتب قابل استقرارتر ارائه می‌شود.

این فقط آغاز این دسته است. نسل‌های آتی ما مرزهای چگالی هوش را جابجا خواهند کرد.

چه چیزی ممکن می‌شود وقتی هوش اینقدر متمرکز باشد

هنگامی که مدل‌های پیشرفته به اندازه کافی کوچک، سریع و کارآمد می‌شوند تا به صورت محلی اجرا شوند، فضای طراحی برای هوش مصنوعی بلافاصله تغییر می‌کند.

محصولات پاسخگوتر می‌شوند زیرا هوش می‌تواند روی دستگاه با تأخیر بسیار کمتر اجرا شود. سیستم‌ها خصوصی‌تر می‌شوند زیرا داده‌های حساس دیگر نیازی به ترک دستگاه یا عبور از مرزهای سازمانی ندارند. برنامه‌ها قابل اعتمادتر می‌شوند زیرا کمتر به دسترسی مداوم به ابر وابسته هستند. و هوش مصنوعی در محیط‌هایی که استقرار سمت سرور قبلاً بسیار گران بود، از نظر اقتصادی امکان‌پذیر می‌شود.

دسته‌های کاملاً جدیدی نیز شروع به باز شدن می‌کنند: عامل‌های پایدار روی دستگاه، رباتیک بلادرنگ، دستیاران امن سازمانی، هوش آفلاین و محصولات بومی هوش مصنوعی که برای محیط‌هایی ساخته شده‌اند که محدودیت‌های پهنای باند، توان یا انطباق، مدل‌های پیشرفته را قبلاً غیرعملی می‌کردند.

به همین دلیل است که ما هوش متمرکز را چیزی بیش از یک بهبود کارایی می‌دانیم. این هوش سطح هوش را گسترش می‌دهد و در نتیجه محصولات هوش مصنوعی می‌توانند چه باشند. آینده هوش مصنوعی تنها به ابر محدود نخواهد شد. بلکه شامل ابر، دستگاه‌های لبه و هر آنچه در این بین است، خواهد بود.

دمو ۱: مدل بونسای ۱ بیتی ۸ میلیارد پارامتری که روی یک آیفون ۱۷ پرو با تقریباً ۴۰ توکن بر ثانیه اجرا می‌شود. یک مدل استاندارد ۱۶ بیتی ۸ میلیارد پارامتری نمی‌تواند روی هیچ آیفونی جا شود. برای مقایسه، ما همچنین یک مدل ۱۶ بیتی ۱ میلیارد پارامتری را نشان می‌دهیم که با ۲۳ توکن بر ثانیه روی همان پرامپت MATH-500 اجرا می‌شود و شکاف قابل توجهی را در دقت و سرعت برجسته می‌کند.

اندازه و سرعت

بونسای ۱ بیتی ۸ میلیارد پارامتری تنها ۱.۱۵ گیگابایت است. با این اندازه، به اندازه کافی کوچک است که روی یک آیفون ۱۷ پرو جا شود. در مقایسه با مدل‌هایی با عملکرد مشابه، این امر تقریباً ۱۴ برابر کاهش در اندازه مدل را نشان می‌دهد. این کاهش صرفاً ظاهری نیست. این امر تغییر می‌دهد که چه سخت‌افزاری می‌تواند هوش جدی را میزبانی کند.

در بین دستگاه‌ها، بونسای همچنین دستاوردهای عمده‌ای در توان عملیاتی (throughput) ارائه می‌دهد. روی یک مک M4 پرو، با سرعت ۱۳۱ توکن بر ثانیه اجرا می‌شود. روی یک RTX 4090، به ۳۶۸ توکن بر ثانیه می‌رسد. روی یک آیفون ۱۷ پرو مکس، تقریباً با سرعت ۴۴ توکن بر ثانیه اجرا می‌شود.

دمو ۲: مدل بونسای ۱ بیتی ۸ میلیارد پارامتری که روی یک مک M4 پرو در کنار یک مدل استاندارد ۱۶ بیتی ۸ میلیارد پارامتری اجرا می‌شود.

از دموی بالا روی M4 پرو، تفاوت بلافاصله آشکار است: بونسای کسری از حافظه را استفاده می‌کند در حالی که سرعت تولید به مراتب بالاتری را ارائه می‌دهد. از آنجا که مدل می‌تواند به صورت محلی اجرا شود، این دستاوردها بدون تأخیر غیرضروری شبکه حاصل می‌شوند. نتیجه تجربه‌ای است که اساساً با هوش مصنوعی وابسته به ابر متفاوت است: سریع‌تر، مستقیم‌تر و در دسترس‌تر.

دمو ۳: مدل بونسای ۱ بیتی ۸ میلیارد پارامتری که روی یک مک M4 پرو در کنار یک مدل استاندارد ۱۶ بیتی ۸ میلیارد پارامتری اجرا می‌شود و یک وظیفه عامل‌محور با افق طولانی را به صورت محلی شبیه‌سازی می‌کند.

مزیت در بارهای کاری عامل‌محور با افق طولانی حتی واضح‌تر می‌شود. در دموی بالا، ما ۵۰ وظیفه خلاصه و تخصیص تیکت را شبیه‌سازی می‌کنیم. مدل بونسای ۱ بیتی ۸ میلیارد پارامتری هر ۵۰ تیکت را تکمیل می‌کند، در حالی که مدل استاندارد ۱۶ بیتی ۸ میلیارد پارامتری تنها ۶ تیکت را در همان بازه زمانی انجام می‌دهد. برای عامل‌هایی که باید استدلال را در چندین مرحله حفظ کنند، توان عملیاتی بالاتر و استفاده کمتر از حافظه نه تنها سیستم را سریع‌تر می‌کند، بلکه میزان کاری را که عامل می‌تواند به طور واقع‌بینانه انجام دهد، گسترش می‌دهد.

مصرف انرژی

هوش مصنوعی تنها در صورتی به زیرساخت‌های اساسی تبدیل خواهد شد که به طور چشمگیری کارآمدتر شود.

بونسای ۱ بیتی ۸ میلیارد پارامتری انرژی بسیار کمتری نسبت به همتایان ۱۶ بیتی با دقت کامل خود مصرف می‌کند و تقریباً ۴ تا ۵ برابر کارایی انرژی بهتری ارائه می‌دهد. روی M4 پرو، به ۰.۰۷۴ میلی‌وات ساعت بر توکن و روی آیفون ۱۷ پرو مکس، تنها به ۰.۰۶۸ میلی‌وات ساعت بر توکن نیاز دارد.

این موضوع مهم است زیرا کارایی انرژی فقط یک معیار سیستمی نیست. اقتصاد واقعی هوش مصنوعی را شکل می‌دهد.

سخت‌افزار ۱ بیتی؟

افزایش سرعت و صرفه‌جویی در انرژی بالا روی سخت‌افزارهای تجاری استاندارد امروزی به دست آمده‌اند، که برای محاسبات با دقت کامل طراحی و بهینه شده‌اند.

نکته مهم این است که این دستاوردها عمدتاً از کاهش حجم حافظه مدل‌های ۱ بیتی ناشی می‌شوند، نه هنوز از بهره‌برداری کامل از ساختار ۱ بیتی وزن‌ها در طول استنتاج. به عبارت دیگر، بونسای در حال حاضر مزایای قابل توجهی را روی سخت‌افزاری ارائه می‌دهد که برای این کلاس از مدل‌ها ساخته نشده بود.

اما مدل‌های ۱ بیتی همچنین راه را برای یک فرصت عمیق‌تر سیستمی باز می‌کنند. در لایه‌های خطی مانند MLPs، وزن‌های ۱ بیتی امکان انجام استنتاج را با ضرب کم یا بدون ضرب فراهم می‌کنند و بخش زیادی از محاسبات را با جمع‌های ساده جایگزین می‌کنند. بنابراین، سخت‌افزاری که به طور خاص برای استنتاج ۱ بیتی طراحی شده باشد، می‌تواند عملکرد و کارایی انرژی را بسیار بیشتر، احتمالاً تا یک مرتبه بزرگی دیگر، افزایش دهد.

نمودار پراکندگی مقایسه عملکرد در مقابل اندازه (مقیاس لگاریتمی) خانواده بونسای ۱ بیتی نسبت به مدل‌ها در کلاس‌های اندازه مختلف. — شکل ۴: مقایسه عملکرد در مقابل اندازه (مقیاس لگاریتمی) خانواده بونسای ۱ بیتی نسبت به مدل‌ها در کلاس‌های اندازه مختلف.

بونسای ۴ میلیارد پارامتری و بونسای ۱.۷ میلیارد پارامتری

برای نمایش بیشتر قدرت رویکرد ما، دو مدل کوچک‌تر دیگر نیز منتشر می‌کنیم: بونسای ۱ بیتی ۴ میلیارد پارامتری و بونسای ۱ بیتی ۱.۷ میلیارد پارامتری. هر دو توان عملیاتی و کارایی انرژی قوی را ارائه می‌دهند در حالی که دقت پیشرو را برای اندازه خود حفظ می‌کنند.

برای بررسی بیشتر بده‌بستان بین اندازه یک مدل و امتیاز متوسط بنچمارک آن، ۲۰ مدل دستورالعمل (instruct) پیشرو را در اندازه‌هایی از ۱.۲ گیگابایت (Qwen3 0.6B) تا ۱۶.۴ گیگابایت (Qwen3 8B) در نظر گرفتیم. نمودار پراکندگی حاصل، مرز پارتوی هوش در مقابل اندازه را نشان می‌دهد که توسط مدل‌های Qwen3 0.6B، 1.7B، 4B و 8B و همچنین Ministral3 3B تعریف شده است.

بونسای ۱ بیتی ۸ میلیارد پارامتری، همراه با مدل‌های خواهر کوچک‌تر خود، یعنی بونسای ۱ بیتی ۱.۷ میلیارد پارامتری و ۴ میلیارد پارامتری، مرز پارتوی (هوش در مقابل اندازه مدل) را به شدت به سمت چپ جابجا می‌کند. این اکنون مرز جدید است.

مسیر از پیشرفت تا فراگیری

نوآوری انسان اغلب یک مسیر مشابه را دنبال می‌کند: ابتدا ثابت می‌کنیم چیزی ممکن است، سپس آن را دموکراتیک می‌کنیم و آن را کوچک‌تر، ارزان‌تر و برای همه قابل دسترس می‌سازیم. رایانه‌های اولیه کل اتاق‌ها را پر می‌کردند و دوربین‌ها زمانی به تنظیمات دقیق و زمان‌های نوردهی طولانی نیاز داشتند. امروز، آن‌ها در جیب ما زندگی می‌کنند.

این انتقال در هوش مصنوعی قبلاً آغاز شده است. طی پنج سال آینده، مدل‌ها همچنان توانمندتر خواهند شد، اما برخی از مهم‌ترین پیشرفت‌ها از قابل حمل، کارآمد و قابل استقرار کردن هوش به اندازه‌ای که در هر کجا که نیاز باشد زندگی کند، حاصل خواهد شد.

این آینده‌ای است که پریزم‌ام‌ال در حال ساخت آن است.

پوشش پلتفرم

ما مدل‌های بونسای ۱ بیتی را برای کار روی طیف وسیعی از دستگاه‌ها ساختیم.

بونسای ۱ بیتی ۸ میلیارد پارامتری به صورت بومی روی دستگاه‌های اپل (مک، آیفون، آیپد) از طریق MLX، و روی پردازنده‌های گرافیکی ان‌ویدیا (NVIDIA GPU) از طریق llama.cpp CUDA اجرا می‌شود. وزن‌های مدل امروز تحت مجوز Apache 2.0 در دسترس هستند.

جزئیات فنی کامل آموزش، ارزیابی و فرآیندهای بنچمارکینگ ما در وایت‌پیپر ما موجود است.

https://prismml.com/news/bonsai-8b