آماده شوید: تولید متن سریع‌تر با مدل‌های زبانی بزرگ مبتنی بر انتشار

سال‌هاست که ما این موضوع را بدیهی می‌دانیم که بسیاری از مدل‌های زبانی بزرگ (LLM) مبتنی بر ترانسفورمر از تکنیکی به نام رگرسیون خودکار (autoregression) استفاده می‌کنند. این تکنیک یادگیری ماشین با نحوه عملکرد بسیاری از زبان‌ها مطابقت دارد، به این صورت که هر کلمه یا توکن را به طور متوالی از چپ به راست پردازش و تولید می‌کند. اما با افزایش پیچیدگی متن تولید شده توسط هوش مصنوعی، هزینه‌های استنتاج و مشکلات مربوط به تأخیر نیز افزایش یافته است.

با این حال، ممکن است راه بهتری وجود داشته باشد، به لطف انتشار اخیر Mercury توسط Inception Labs مستقر در ایالات متحده، اولین مدل زبانی بزرگ انتشار (dLLM) در مقیاس تجاری که نوید تولید متن سریع‌تر و کارآمدتر را می‌دهد، با استفاده از همان روش مبتنی بر انتشار که زیربنای مدل‌های تولید تصویر مانند DALL-E، Stable Diffusion و Midjourney است.

نحوه عملکرد مدل‌های انتشار برای تولید تصویر - نویزی‌سازی و حذف نویز. از طریق Tim Cvetko.

رگرسیون خودکار در مقابل انتشار

مدل‌های زبانی بزرگ مبتنی بر رگرسیون خودکار معمولی، توکن‌ها را به طور متوالی پردازش می‌کنند، به طوری که تولید هر کلمه جدید به توکن‌های قبلی دنباله بستگی دارد. مزایای قابل توجهی در این رویکرد وجود دارد: انسجام بیشتر، عمق متنی و خروجی‌های واقع‌گرایانه‌تر ارائه می‌دهد که وابستگی‌های بین کلمات و عبارات را به تصویر می‌کشد. با این حال، معایب این مدل‌ها شامل افزایش هزینه محاسباتی، سرعت استنتاج کندتر و خطاهای بالقوه بیشتر است.

در مقابل، ماهیت غیر متوالی مدل‌های انتشار، بسیاری از این مشکلات را برطرف می‌کند. برای تولید تصاویر، مدل‌های انتشار با افزودن تدریجی نویز تصادفی به یک تصویر در فرآیندی به نام "نویزی‌سازی" (noising) عمل می‌کنند. سپس مدل یاد می‌گیرد که با "حذف نویز" (de-noising) به صورت تکراری برای بازسازی تصویر اصلی، از این نویز اضافه شده برگردد. از طریق این فرآیندها، مدل یاد می‌گیرد الگوها را تشخیص دهد و در نهایت نحوه سنتز و پالایش مداوم تصاویر مشابه را در آینده یاد می‌گیرد.

این رویکرد جامع و موازی مدل‌های انتشار به طرز باورنکردنی‌ای در تولید تصاویر و ویدیو مؤثر است، اما دستیابی به آن با متن دشوار بوده است - تا به حال.

اندرو ان‌جی (Andrew Ng)، بنیانگذار DeepLearning.ai، در پستی در X توضیح داد: «ترانسفورمرها بر تولید متن LLM تسلط دارند و توکن‌ها را به طور متوالی ایجاد می‌کنند. مدل‌های انتشار یک جایگزین ارائه می‌دهند - آنها تمام متن را به طور همزمان تولید می‌کنند و یک فرآیند درشت به ریز را اعمال می‌کنند.»

مقایسه سرعت: توکن‌های خروجی در ثانیه، حجم کار کدنویسی. از طریق Inception Labs.

نمودار عملکرد Mercury Coder در مقایسه با سایر مدل‌ها — از طریق Inception Labs.

Mercury تولید زبان را تسریع می‌کند

به گفته این شرکت، Mercury پنج برابر سریع‌تر از مدل‌های زبانی بزرگ معمولی و تا 10 برابر سریع‌تر از سایر LLM‌های بهینه‌سازی شده برای سرعت است - به علاوه، به طور کلی، اجرای آن ارزان‌تر است. مدل‌های Mercury می‌توانند با بیش از 1000 توکن در ثانیه روی NVIDIA H100s کار کنند - سرعتی فوق‌العاده که قبلاً فقط با تراشه‌های سفارشی از شرکت‌های سخت‌افزاری تخصصی مانند Groq، Cerebras و SambaNova قابل دستیابی بود.

در حال حاضر، به عنوان یک نسخه نمایشی به نام Mercury Coder در دسترس است، یک مدل زبانی بزرگ انتشار که به طور خاص برای تولید کد بهینه شده است. می‌توانید ببینید که چگونه در تولید کد در زمان واقعی در مقایسه با سایر LLM‌ها قرار می‌گیرد.

به گفته Inception Labs، نسخه "کوچک" Mercury Coder با GPT-4o Mini و Claude 3.5 Haiku OpenAI برابری می‌کند، در حالی که در طول آزمایش 10 برابر سریع‌تر عمل می‌کند. مدل "کوچک" Mercury از مدل‌های متن باز کوچک مانند Llama 3.1 8B Meta بهتر عمل می‌کند و به بیش از 1000 توکن در ثانیه دست می‌یابد. در مقایسه با برخی از LLM‌های پیشرو که با کمتر از 50 توکن در ثانیه اجرا می‌شوند، Mercury یک افزایش سرعت 20 برابری ارائه می‌دهد.

هنگامی که Mercury Coder روی معیارهای استاندارد کدنویسی ارزیابی می‌شود، می‌تواند موقعیت خود را حفظ کند یا از رقبای خود پیشی بگیرد، در حالی که سطح بالایی از کیفیت را در خروجی‌های خود حفظ می‌کند.

تاثیرات بالقوه بر هوش مصنوعی

با استفاده مؤثرتر Mercury از GPUهای معمولی، این می‌تواند به معنای کاهش هزینه استنتاج باشد، بدون تأثیر منفی زیاد بر عملکرد و بدون نیاز به سخت‌افزار تخصصی. این می‌تواند به معنای عملکرد حتی بیشتر برای مدل‌های انتشار مانند Mercury در آینده باشد، زیرا GPUها به تکامل خود ادامه می‌دهند.

در حال حاضر، برخی از معایب در مورد مدل‌های انتشار وجود دارد. در حالی که مدل‌های رگرسیون خودکار فقط به یک بار عبور در هر توکن نیاز دارند، مدل‌های انتشار معمولاً نیاز دارند که توکن‌ها قبل از اینکه بتوانند خروجی تولید کنند، چندین بار از شبکه عصبی عبور کنند. با این حال، این نقطه ضعف بالقوه بیشتر با این واقعیت متعادل می‌شود که مدل‌های انتشار می‌توانند تمام توکن‌ها را به طور همزمان به صورت موازی پردازش کنند.

کاربردهای بالقوه برای تولید متن مبتنی بر انتشار

Inception Labs معتقد است که تولید متن مبتنی بر انتشار برای تولید کد، اتوماسیون سازمانی و همچنین موارد استفاده حساس به تأخیر مانند هوش مصنوعی مکالمه‌ای، هوش مصنوعی عامل‌محور و در شرایط محدودیت منابع (مانند دستگاه‌های تلفن همراه) بسیار مناسب خواهد بود. با توجه به قابلیت‌های استدلال پیشرفته dLLM‌ها، می‌توانند توهمات را اصلاح کنند، در حالی که همچنان پاسخ‌ها را پردازش می‌کنند - همه در عرض چند ثانیه. در درازمدت، مدل‌هایی مانند Mercury می‌توانند نشان‌دهنده تغییر پارادایم از مدل‌های رگرسیون خودکار به مدل‌های مبتنی بر انتشار برای تولید متن سریع و کارآمد باشند.

Mercury اکنون به عنوان یک نسخه نمایشی کدنویسی و همچنین برای مشتریان سازمانی از طریق API و استقرار در محل در دسترس است، با پشتیبانی از تنظیم دقیق که برای هر دو ارائه می‌شود. برای کسب اطلاعات بیشتر، به Inception Labs مراجعه کنید.

https://thenewstack.io/get-ready-for-faster-text-generation-with-diffusion-llms/