سالهاست که ما این موضوع را بدیهی میدانیم که بسیاری از مدلهای زبانی بزرگ (LLM) مبتنی بر ترانسفورمر از تکنیکی به نام رگرسیون خودکار (autoregression) استفاده میکنند. این تکنیک یادگیری ماشین با نحوه عملکرد بسیاری از زبانها مطابقت دارد، به این صورت که هر کلمه یا توکن را به طور متوالی از چپ به راست پردازش و تولید میکند. اما با افزایش پیچیدگی متن تولید شده توسط هوش مصنوعی، هزینههای استنتاج و مشکلات مربوط به تأخیر نیز افزایش یافته است.
با این حال، ممکن است راه بهتری وجود داشته باشد، به لطف انتشار اخیر Mercury توسط Inception Labs مستقر در ایالات متحده، اولین مدل زبانی بزرگ انتشار (dLLM) در مقیاس تجاری که نوید تولید متن سریعتر و کارآمدتر را میدهد، با استفاده از همان روش مبتنی بر انتشار که زیربنای مدلهای تولید تصویر مانند DALL-E، Stable Diffusion و Midjourney است.
رگرسیون خودکار در مقابل انتشار
مدلهای زبانی بزرگ مبتنی بر رگرسیون خودکار معمولی، توکنها را به طور متوالی پردازش میکنند، به طوری که تولید هر کلمه جدید به توکنهای قبلی دنباله بستگی دارد. مزایای قابل توجهی در این رویکرد وجود دارد: انسجام بیشتر، عمق متنی و خروجیهای واقعگرایانهتر ارائه میدهد که وابستگیهای بین کلمات و عبارات را به تصویر میکشد. با این حال، معایب این مدلها شامل افزایش هزینه محاسباتی، سرعت استنتاج کندتر و خطاهای بالقوه بیشتر است.
در مقابل، ماهیت غیر متوالی مدلهای انتشار، بسیاری از این مشکلات را برطرف میکند. برای تولید تصاویر، مدلهای انتشار با افزودن تدریجی نویز تصادفی به یک تصویر در فرآیندی به نام "نویزیسازی" (noising) عمل میکنند. سپس مدل یاد میگیرد که با "حذف نویز" (de-noising) به صورت تکراری برای بازسازی تصویر اصلی، از این نویز اضافه شده برگردد. از طریق این فرآیندها، مدل یاد میگیرد الگوها را تشخیص دهد و در نهایت نحوه سنتز و پالایش مداوم تصاویر مشابه را در آینده یاد میگیرد.
این رویکرد جامع و موازی مدلهای انتشار به طرز باورنکردنیای در تولید تصاویر و ویدیو مؤثر است، اما دستیابی به آن با متن دشوار بوده است - تا به حال.
اندرو انجی (Andrew Ng)، بنیانگذار DeepLearning.ai، در پستی در X توضیح داد: «ترانسفورمرها بر تولید متن LLM تسلط دارند و توکنها را به طور متوالی ایجاد میکنند. مدلهای انتشار یک جایگزین ارائه میدهند - آنها تمام متن را به طور همزمان تولید میکنند و یک فرآیند درشت به ریز را اعمال میکنند.»
Mercury تولید زبان را تسریع میکند
به گفته این شرکت، Mercury پنج برابر سریعتر از مدلهای زبانی بزرگ معمولی و تا 10 برابر سریعتر از سایر LLMهای بهینهسازی شده برای سرعت است - به علاوه، به طور کلی، اجرای آن ارزانتر است. مدلهای Mercury میتوانند با بیش از 1000 توکن در ثانیه روی NVIDIA H100s کار کنند - سرعتی فوقالعاده که قبلاً فقط با تراشههای سفارشی از شرکتهای سختافزاری تخصصی مانند Groq، Cerebras و SambaNova قابل دستیابی بود.
در حال حاضر، به عنوان یک نسخه نمایشی به نام Mercury Coder در دسترس است، یک مدل زبانی بزرگ انتشار که به طور خاص برای تولید کد بهینه شده است. میتوانید ببینید که چگونه در تولید کد در زمان واقعی در مقایسه با سایر LLMها قرار میگیرد.
به گفته Inception Labs، نسخه "کوچک" Mercury Coder با GPT-4o Mini و Claude 3.5 Haiku OpenAI برابری میکند، در حالی که در طول آزمایش 10 برابر سریعتر عمل میکند. مدل "کوچک" Mercury از مدلهای متن باز کوچک مانند Llama 3.1 8B Meta بهتر عمل میکند و به بیش از 1000 توکن در ثانیه دست مییابد. در مقایسه با برخی از LLMهای پیشرو که با کمتر از 50 توکن در ثانیه اجرا میشوند، Mercury یک افزایش سرعت 20 برابری ارائه میدهد.
هنگامی که Mercury Coder روی معیارهای استاندارد کدنویسی ارزیابی میشود، میتواند موقعیت خود را حفظ کند یا از رقبای خود پیشی بگیرد، در حالی که سطح بالایی از کیفیت را در خروجیهای خود حفظ میکند.
تاثیرات بالقوه بر هوش مصنوعی
با استفاده مؤثرتر Mercury از GPUهای معمولی، این میتواند به معنای کاهش هزینه استنتاج باشد، بدون تأثیر منفی زیاد بر عملکرد و بدون نیاز به سختافزار تخصصی. این میتواند به معنای عملکرد حتی بیشتر برای مدلهای انتشار مانند Mercury در آینده باشد، زیرا GPUها به تکامل خود ادامه میدهند.
در حال حاضر، برخی از معایب در مورد مدلهای انتشار وجود دارد. در حالی که مدلهای رگرسیون خودکار فقط به یک بار عبور در هر توکن نیاز دارند، مدلهای انتشار معمولاً نیاز دارند که توکنها قبل از اینکه بتوانند خروجی تولید کنند، چندین بار از شبکه عصبی عبور کنند. با این حال، این نقطه ضعف بالقوه بیشتر با این واقعیت متعادل میشود که مدلهای انتشار میتوانند تمام توکنها را به طور همزمان به صورت موازی پردازش کنند.
کاربردهای بالقوه برای تولید متن مبتنی بر انتشار
Inception Labs معتقد است که تولید متن مبتنی بر انتشار برای تولید کد، اتوماسیون سازمانی و همچنین موارد استفاده حساس به تأخیر مانند هوش مصنوعی مکالمهای، هوش مصنوعی عاملمحور و در شرایط محدودیت منابع (مانند دستگاههای تلفن همراه) بسیار مناسب خواهد بود. با توجه به قابلیتهای استدلال پیشرفته dLLMها، میتوانند توهمات را اصلاح کنند، در حالی که همچنان پاسخها را پردازش میکنند - همه در عرض چند ثانیه. در درازمدت، مدلهایی مانند Mercury میتوانند نشاندهنده تغییر پارادایم از مدلهای رگرسیون خودکار به مدلهای مبتنی بر انتشار برای تولید متن سریع و کارآمد باشند.
Mercury اکنون به عنوان یک نسخه نمایشی کدنویسی و همچنین برای مشتریان سازمانی از طریق API و استقرار در محل در دسترس است، با پشتیبانی از تنظیم دقیق که برای هر دو ارائه میشود. برای کسب اطلاعات بیشتر، به Inception Labs مراجعه کنید.