دیگر کسی از کمبود GPU رنج نخواهد برد

«خوشا به حال فقیران GPU، زیرا آنان وارث هوش مصنوعی عمومی خواهند بود.»

تا همین اواخر، اجرای یک مدل زبانی بزرگ (LLM) به معنای تکیه بر واحدهای پردازش گرافیکی (GPU) عظیم و سخت‌افزار گران‌قیمت بود. اما اکنون، اوضاع در حال تغییر است. موج جدیدی از مدل‌های زبانی بزرگ کوچکتر و کارآمدتر در حال ظهور است که قادر به اجرا بر روی یک GPU بدون افت عملکرد هستند. این مدل‌ها، هوش مصنوعی سطح بالا را در دسترس‌تر می‌کنند، وابستگی به زیرساخت‌های بزرگ را کاهش می‌دهند و نحوه استقرار هوش مصنوعی را تغییر می‌دهند.

همانطور که بویان تونگوز، مهندس ارشد نرم‌افزار سابق NVIDIA، به گفت: «خوشا به حال فقیران GPU، زیرا آنان وارث هوش مصنوعی عمومی خواهند بود.»

در هفته گذشته، مجموعه‌ای از اعلامیه‌ها در زمینه هوش مصنوعی منتشر شده است. آخرین مدل میسترال، Small 3.1، Gemma 3 گوگل و Command A کوهر، همگی ادعا می‌کنند که با عملکرد مدل‌های اختصاصی برابری می‌کنند در حالی که به منابع محاسباتی کمتری نیاز دارند.

این مدل‌ها، توسعه‌دهندگان، کسب‌وکارهای کوچک و حتی علاقه‌مندان دارای سخت‌افزار در سطح مصرف‌کننده (به عنوان مثال، یک کارت NVIDIA RTX) را قادر می‌سازند تا مدل‌های هوش مصنوعی پیشرفته را به صورت محلی اجرا کنند.

علاوه بر این، اجرای LLMها به صورت محلی بر روی یک GPU، وابستگی به ارائه‌دهندگان ابری مانند AWS یا Google Cloud را کاهش می‌دهد و به کسب‌وکارها کنترل بیشتری بر داده‌ها و حریم خصوصی خود می‌دهد. این امر برای صنایعی که اطلاعات حساس را مدیریت می‌کنند و مناطقی که دسترسی محدودی به اینترنت دارند، بسیار حیاتی است.

چه چیزی آنها را خاص می‌کند؟

Mistral Small 3.1 دارای عملکرد بهبود یافته در متن، درک چندوجهی و یک پنجره زمینه گسترده تا 128 هزار توکن است. این شرکت اعلام کرده است که این مدل از مدل‌های مشابه مانند آخرین نسخه گوگل، Gemma 3 و GPT-4o mini عملکرد بهتری دارد در حالی که سرعت استنتاج 150 توکن در ثانیه را ارائه می‌دهد.

با این حال، یکی از برجسته‌ترین ویژگی‌های این مدل این است که می‌تواند بر روی یک RTX 4090 یا یک Mac با 32 گیگابایت رم اجرا شود، که آن را برای موارد استفاده روی دستگاه بسیار مناسب می‌سازد. این شرکت اعلام کرده است که این مدل می‌تواند برای تخصص در زمینه‌های خاص، تنظیم دقیق شود و متخصصان موضوعی دقیقی ایجاد کند. این امر به ویژه در زمینه‌هایی مانند مشاوره حقوقی، تشخیص پزشکی و پشتیبانی فنی مفید است.

از سوی دیگر، گوگل ادعا می‌کند که Gemma 3 در ارزیابی‌های اولیه ترجیح انسانی در تابلوی امتیازات LMArena، از Llama 3-405B، DeepSeek-V3 و o3-mini عملکرد بهتری دارد. مانند Mistral 3.1، این مدل نیز می‌تواند بر روی یک GPU یا یک واحد پردازش تانسور (TPU) اجرا شود.

یکی از کاربران X گفت: «در مقایسه با Mistral Large یا Llama 3 405B که به 32 GPU نیاز دارند، Gemma 3 هزینه‌ها را کاهش می‌دهد و درها را برای سازندگان باز می‌کند.» شایان ذکر است، یک GPU NVIDIA RTX یا H100 بسیار مقرون به صرفه‌تر از خوشه‌های چند GPU است، که هوش مصنوعی را برای استارت‌آپ‌ها و توسعه‌دهندگان فردی مقرون به صرفه می‌سازد.

Gemma 3 27B با اجرای بر روی یک NVIDIA H100 GPU با دقت کاهش یافته، به طور خاص با استفاده از عملیات ممیز شناور 16 بیتی (FP16)، که برای بهینه‌سازی عملکرد در مدل‌های هوش مصنوعی مدرن رایج است، به کارایی خود دست می‌یابد.

LLMها به طور معمول از نمایش‌های ممیز شناور 32 بیتی (FP32) برای وزن‌ها و فعال‌سازی‌ها استفاده می‌کنند که به حافظه و قدرت محاسباتی زیادی نیاز دارد. کوانتیزاسیون این دقت را به 16 بیت (FP16)، 8 بیت (INT8) یا حتی 4 بیت (INT4) کاهش می‌دهد، که به طور قابل توجهی اندازه مدل را کاهش می‌دهد و استنتاج را بر روی GPUها و دستگاه‌های لبه تسریع می‌کند.

در مورد معماری، Gemma 3 از یک سر مدل زبانی (LM) مشترک یا مرتبط برای جاسازی کلمات خود استفاده می‌کند، همانطور که پیکربندی لایه خطی آن نشان می‌دهد، جایی که وزن‌های سر LM به جاسازی‌های ورودی گره خورده‌اند.

به طور مشابه، کوهر اخیراً Command A را راه‌اندازی کرده است، مدلی که عملکرد برتر را با هزینه‌های سخت‌افزاری کمتر از مدل‌های اختصاصی و وزن باز پیشرو مانند GPT-4o و DeepSeek-V3 ارائه می‌دهد.

به گفته این شرکت، این مدل برای استقرارهای خصوصی مناسب است و در وظایف عامل‌محور و چندزبانه حیاتی برای کسب‌وکار عالی عمل می‌کند در حالی که فقط روی دو GPU اجرا می‌شود، در حالی که مدل‌های دیگر اغلب به 32 GPU نیاز دارند.

این شرکت در پست وبلاگ خود اعلام کرد: «با ردپای خدمت‌رسانی فقط دو A100 یا H100، به محاسبات بسیار کمتری نسبت به سایر مدل‌های قابل مقایسه در بازار نیاز دارد. این امر به ویژه برای استقرارهای خصوصی مهم است.»

این مدل طول متن 256 هزار را ارائه می‌دهد - دو برابر بیشتر از اکثر مدل‌های پیشرو - که به آن امکان می‌دهد اسناد سازمانی بسیار طولانی‌تری را پردازش کند. سایر ویژگی‌های کلیدی عبارتند از تولید پیشرفته با استفاده از بازیابی (RAG) کوهر با استنادهای قابل تأیید، استفاده از ابزار عامل‌محور، امنیت در سطح سازمانی و عملکرد چندزبانه قوی.

مایکروسافت اخیراً Phi-4-multimodal و Phi-4-mini را راه‌اندازی کرده است، آخرین اضافات به خانواده Phi خود از مدل‌های زبانی کوچک (SLM). این مدل‌ها در اکوسیستم مایکروسافت، از جمله برنامه‌های Windows و Copilot+ PC ادغام شده‌اند.

در اوایل سال جاری، NVIDIA یک ابررایانه جمع و جور به نام DIGITS را برای محققان هوش مصنوعی، دانشمندان داده و دانشجویان در سراسر جهان راه‌اندازی کرد. به گفته NVIDIA، این ابررایانه می‌تواند LLMها را با حداکثر 200 میلیارد پارامتر به صورت محلی اجرا کند و با اتصال دو واحد به یکدیگر، از مدل‌هایی با دو برابر اندازه پشتیبانی کرد.

علاوه بر این، چارچوب‌های منبع باز اجرای LLMها را بر روی یک GPU واحد تسهیل می‌کنند. پروژه منبع باز Predibase، LoRAX، به کاربران اجازه می‌دهد تا هزاران مدل تنظیم‌شده را بر روی یک GPU واحد ارائه دهند، و هزینه‌ها را بدون کاهش سرعت یا عملکرد کاهش می‌دهد.

LoRAX از تعدادی LLM به عنوان مدل پایه از جمله Llama (از جمله Code Llama)، Mistral (از جمله Zephyr) و Qwen پشتیبانی می‌کند.

این مدل دارای بارگذاری آداپتور پویا است، و چندین آداپتور را در هر درخواست به طور فوری ادغام می‌کند تا گروه‌های قدرتمندی را بدون مسدود کردن درخواست‌های همزمان ایجاد کند. دسته‌بندی پیوسته ناهمگن درخواست‌ها را با استفاده از آداپتورهای مختلف در یک دسته بسته‌بندی می‌کند و از تأخیر کم و توان عملیاتی پایدار اطمینان می‌دهد.

زمان‌بندی تبادل آداپتور با پیش بارگذاری و تخلیه ناهمزمان آداپتورها بین حافظه GPU و CPU، مدیریت حافظه را بهینه می‌کند. بهینه‌سازی‌های استنتاج با عملکرد بالا، از جمله موازی‌سازی تانسور، هسته‌های CUDA از پیش کامپایل شده، کوانتیزاسیون و جریان توکن، سرعت و کارایی را بیشتر بهبود می‌بخشند.

اجرای LLMها بدون GPU؟

چند روز پیش، AIM با جان لیمگروبر، یک مهندس نرم‌افزار از ایالات متحده با دو سال تجربه در مهندسی، که موفق به اجرای مدل 671 میلیارد پارامتری DeepSeek-R1 بدون GPU شد، صحبت کرد. او این کار را با اجرای یک نسخه کوانتیزه شده از مدل بر روی یک SSD سریع NVM Express (NVMe) انجام داد.

لیمگروبر از یک نسخه کوانتیزه شده و غیر تقطیر شده از مدل، توسعه یافته توسط Unsloth AI - یک مدل 2.51 بیت در هر پارامتر، که به گفته او با وجود فشرده شدن به تنها 212 گیگابایت، کیفیت خوبی را حفظ کرده است، استفاده کرد.

با این حال، این مدل به طور ذاتی بر روی 8 بیت ساخته شده است، که آن را به طور پیش فرض کارآمد می‌کند.

لیمگروبر این مدل را پس از غیرفعال کردن NVIDIA RTX 3090 Ti GPU خود بر روی دستگاه بازی خود، با 96 گیگابایت رم و 24 گیگابایت VRAM اجرا کرد.

او توضیح داد که ترفند مخفی این است که فقط کش KV را در رم بارگیری کنید در حالی که به llama.cpp اجازه می‌دهید فایل‌های مدل را با استفاده از رفتار پیش‌فرض خود مدیریت کند - نگاشت حافظه (mmap) مستقیم آنها از یک SSD سریع NVMe. او گفت: «بقیه رم سیستم شما به عنوان کش دیسک برای وزن‌های فعال عمل می‌کند.»

با اجرای LLMها اکنون بر روی یک GPU واحد - یا حتی بدون GPU - هوش مصنوعی برای همه کاربردی‌تر می‌شود. با بهبود سخت‌افزار و ظهور تکنیک‌های جدید، هوش مصنوعی در سال‌های آینده حتی در دسترس‌تر، مقرون به صرفه‌تر و قدرتمندتر خواهد شد.