30 ثانیه در مقابل 3: چارچوب استدلال d1 که زمان پاسخگویی هوش مصنوعی را کاهش می‌دهد

برای دریافت آخرین به‌روزرسانی‌ها و محتوای اختصاصی در مورد پوشش هوش مصنوعی پیشرو در صنعت، در خبرنامه‌های روزانه و هفتگی ما عضو شوید. بیشتر بدانید

پژوهشگران دانشگاه کالیفرنیا، لس‌آنجلس (UCLA) و متا ای‌آی (Meta AI)، چارچوب جدیدی به نام d1 را معرفی کرده‌اند که از یادگیری تقویتی (Reinforcement Learning یا RL) برای افزایش قابل توجه قابلیت‌های استدلال مدل‌های زبانی بزرگ مبتنی بر انتشار (diffusion-based large language models یا dLLMs) استفاده می‌کند. در حالی که بیشتر توجهات بر روی مدل‌های خود-بازگشتی (autoregressive) مانند GPT متمرکز شده است، dLLMها مزایای منحصر به فردی را ارائه می‌دهند. تقویت مهارت‌های استدلال قوی در آن‌ها می‌تواند کارایی و کاربردهای جدیدی را برای شرکت‌ها باز کند.

dLLMها رویکردی متمایز برای تولید متن در مقایسه با مدل‌های خود-بازگشتی استاندارد ارائه می‌دهند و به طور بالقوه مزایایی از نظر کارایی و پردازش اطلاعات دارند که می‌تواند برای کاربردهای مختلف دنیای واقعی ارزشمند باشد.

درک مدل‌های زبانی انتشار

اکثر مدل‌های زبانی بزرگ (Large Language Models یا LLMs) مانند GPT-4o و Llama خود-بازگشتی (AR) هستند. آن‌ها متن را به صورت متوالی تولید می‌کنند، و توکن (token) بعدی را فقط بر اساس توکن‌هایی که قبل از آن آمده‌اند، پیش‌بینی می‌کنند.

مدل‌های زبانی انتشار (Diffusion Language Models یا dLLMs) به گونه‌ای متفاوت عمل می‌کنند. مدل‌های انتشار در ابتدا در مدل‌های تولید تصویر مانند DALL-E 2، Midjourney و Stable Diffusion استفاده می‌شدند. ایده اصلی شامل افزودن تدریجی نویز به یک تصویر تا زمانی که به صورت ایستا (static) خالص درآید، و سپس آموزش یک مدل برای معکوس کردن دقیق این فرآیند است، به این صورت که از نویز شروع کرده و به تدریج آن را به یک تصویر منسجم تبدیل می‌کند.

تطبیق مستقیم این مفهوم با زبان دشوار بود زیرا متن از واحدهای گسسته (توکن‌ها) تشکیل شده است، برخلاف مقادیر پیکسلی پیوسته در تصاویر. پژوهشگران با توسعه مدل‌های زبانی انتشار پوششی (masked diffusion language models) بر این مشکل غلبه کردند. این مدل‌ها به جای افزودن نویز پیوسته، با پوشاندن تصادفی توکن‌ها در یک توالی و آموزش مدل برای پیش‌بینی توکن‌های اصلی کار می‌کنند.

این منجر به فرآیند تولید متفاوتی در مقایسه با مدل‌های خود-بازگشتی می‌شود. dLLMها با یک نسخه به شدت پوشیده شده از متن ورودی شروع می‌کنند و به تدریج آن را در چندین مرحله "رفع پوشش" یا پالایش می‌کنند تا خروجی نهایی و منسجم ظاهر شود. این تولید "درشت به ظریف" (coarse-to-fine) dLLMها را قادر می‌سازد تا کل متن را به طور همزمان در هر مرحله در نظر بگیرند، برخلاف تمرکز صرف بر روی توکن بعدی.

این تفاوت به dLLMها مزایای بالقوه‌ای می‌دهد، مانند پردازش موازی بهبود یافته در طول تولید، که می‌تواند منجر به استنتاج سریع‌تر، به ویژه برای توالی‌های طولانی‌تر شود. نمونه‌هایی از این نوع مدل عبارتند از LLaDA منبع باز و مدل Mercury بسته از Inception Labs.

آدیتیا گروور (Aditya Grover)، استادیار علوم کامپیوتر در UCLA و یکی از نویسندگان مقاله d1، به VentureBeat گفت: "در حالی که LLMهای خود-بازگشتی می‌توانند از استدلال برای افزایش کیفیت استفاده کنند، این بهبود با هزینه محاسباتی شدیدی همراه است و LLMهای استدلال پیشرفته برای تولید یک پاسخ واحد بیش از 30 ثانیه تاخیر دارند." "در مقابل، یکی از مزایای کلیدی dLLMها، کارایی محاسباتی آن‌ها است. به عنوان مثال، dLLMهای پیشرفته مانند Mercury می‌توانند عملکردی 10 برابر بهتر از بهترین LLMهای خود-بازگشتی بهینه شده برای سرعت از آزمایشگاه‌های پیشرو داشته باشند."

یادگیری تقویتی برای dLLMها

با وجود مزایایشان، dLLMها هنوز در توانایی‌های استدلال از مدل‌های خود-بازگشتی عقب‌تر هستند. یادگیری تقویتی برای آموزش مهارت‌های استدلال پیچیده به LLMها حیاتی شده است. با آموزش مدل‌ها بر اساس سیگنال‌های پاداش (اساساً پاداش دادن به آن‌ها برای مراحل استدلال صحیح یا پاسخ‌های نهایی)، RL، LLMها را به سمت پیروی بهتر از دستورالعمل‌ها و استدلال سوق داده است.

الگوریتم‌هایی مانند Proximal Policy Optimization (PPO) و Group Relative Policy Optimization (GRPO) جدیدتر، در استفاده مؤثر از RL برای مدل‌های خود-بازگشتی نقش اساسی داشته‌اند. این روش‌ها معمولاً بر محاسبه احتمال (یا لگاریتم احتمال) توالی متن تولید شده تحت سیاست فعلی مدل تکیه می‌کنند تا فرآیند یادگیری را هدایت کنند.

این محاسبه برای مدل‌های خود-بازگشتی به دلیل تولید متوالی، توکن به توکن آن‌ها ساده است. با این حال، برای dLLMها، با فرآیند تولید تکراری و غیر متوالی آن‌ها، محاسبه مستقیم این احتمال توالی دشوار و از نظر محاسباتی پرهزینه است. این یک مانع بزرگ برای اعمال تکنیک‌های RL تثبیت شده برای بهبود استدلال dLLM بوده است.

چارچوب d1 این چالش را با یک فرآیند پس‌آموزشی دو مرحله‌ای که به طور خاص برای dLLMهای پوششی طراحی شده است، حل می‌کند:

تنظیم دقیق نظارت شده (Supervised Fine-Tuning یا SFT): ابتدا، dLLM از پیش آموزش دیده شده بر روی مجموعه داده‌ای از نمونه‌های استدلال با کیفیت بالا، تنظیم دقیق می‌شود. در این مقاله از مجموعه داده "s1k" استفاده شده است که شامل راه حل‌های گام به گام دقیق برای مسائل است، از جمله نمونه‌هایی از خود-اصلاحی و عقب‌گرد در هنگام وقوع خطا. هدف این مرحله القای الگوها و رفتارهای استدلال اساسی در مدل است.
یادگیری تقویتی با diffu-GRPO: پس از SFT، مدل تحت آموزش RL با استفاده از یک الگوریتم جدید به نام diffu-GRPO قرار می‌گیرد. این الگوریتم اصول GRPO را با dLLMها تطبیق می‌دهد. این روش یک روش کارآمد برای تخمین احتمالات لگاریتمی ارائه می‌دهد و در عین حال از محاسبات پرهزینه‌ای که قبلاً مورد نیاز بود، اجتناب می‌کند. همچنین یک تکنیک هوشمندانه به نام "پوشش تصادفی اعلان" را در خود جای داده است.

در طول آموزش RL، بخش‌هایی از اعلان ورودی به طور تصادفی در هر مرحله به‌روزرسانی پوشانده می‌شوند. این به عنوان نوعی منظم‌سازی (regularization) و افزایش داده (data augmentation) عمل می‌کند و به مدل اجازه می‌دهد تا به طور موثرتری از هر دسته داده یاد بگیرد.

d1 در کاربردهای دنیای واقعی

پژوهشگران چارچوب d1 را بر روی LLaDA-8B-Instruct، یک dLLM منبع باز، اعمال کردند. آن‌ها آن را با استفاده از مجموعه داده استدلال s1k برای مرحله SFT، تنظیم دقیق کردند. سپس چندین نسخه را مقایسه کردند: مدل پایه LLaDA، LLaDA فقط با SFT، LLaDA فقط با diffu-GRPO و d1-LLaDA کامل (SFT و به دنبال آن diffu-GRPO).

این مدل‌ها بر روی معیارهای استدلال ریاضی (GSM8K، MATH500) و وظایف استدلال منطقی (سودوکو 4×4، بازی اعداد Countdown) آزمایش شدند.

نتایج نشان داد که d1-LLaDA کامل به طور مداوم بهترین عملکرد را در تمام وظایف به دست آورد. به طور قابل توجهی، diffu-GRPO به تنهایی نیز به طور قابل توجهی بهتر از SFT به تنهایی و مدل پایه عمل کرد.

گروور گفت: "dLLMهای تقویت شده با استدلال مانند d1 می‌توانند انواع مختلفی از عامل‌ها (agent) را برای حجم کاری شرکت‌ها تغذیه کنند." "این شامل عامل‌های کدنویسی برای مهندسی نرم‌افزار فوری، و همچنین تحقیقات عمیق فوق‌العاده سریع برای استراتژی و مشاوره در زمان واقعی است... با عامل‌های d1، گردش کار دیجیتال روزمره می‌تواند به طور همزمان خودکار و تسریع شود."

جالب اینجاست که پژوهشگران بهبودهای کیفی را مشاهده کردند، به ویژه هنگام تولید پاسخ‌های طولانی‌تر. مدل‌ها شروع به نشان دادن "لحظات آها" کردند، و رفتارهای خود-اصلاحی و عقب‌گرد آموخته شده از نمونه‌ها در مجموعه داده s1k را نشان دادند. این نشان می‌دهد که مدل فقط پاسخ‌ها را حفظ نمی‌کند، بلکه استراتژی‌های حل مسئله قوی‌تری را یاد می‌گیرد.

مدل‌های خود-بازگشتی از نظر پذیرش، مزیت پیشگامی دارند. با این حال، گروور معتقد است که پیشرفت‌ها در dLLMها می‌تواند پویایی میدان بازی را تغییر دهد. برای یک شرکت، یک راه برای تصمیم‌گیری بین این دو این است که آیا برنامه آن‌ها در حال حاضر با محدودیت‌های تاخیر یا هزینه مواجه است یا خیر.

به گفته گروور، dLLMهای انتشار تقویت شده با استدلال مانند d1 می‌توانند به یکی از دو روش مکمل کمک کنند:

اگر یک شرکت در حال حاضر قادر به انتقال به یک مدل استدلال بر اساس یک LLM خود-بازگشتی نیست، dLLMهای تقویت شده با استدلال یک جایگزین plug-and-play ارائه می‌دهند که به شرکت‌ها اجازه می‌دهد کیفیت برتر مدل‌های استدلال را با همان سرعت dLLMهای خود-بازگشتی غیر استدلال تجربه کنند.
اگر برنامه شرکت اجازه بودجه تاخیر و هزینه بیشتری را می‌دهد، d1 می‌تواند ردیابی‌های استدلال طولانی‌تری را با استفاده از همان بودجه تولید کند و کیفیت را بیشتر بهبود بخشد.

گروور گفت: "به عبارت دیگر، dLLMهای سبک d1 می‌توانند LLMهای خود-بازگشتی را در محور کیفیت، سرعت و هزینه، پارتو-غالب (Pareto-dominate) کنند."

https://venturebeat.com/ai/30-seconds-vs-3-the-d1-reasoning-framework-thats-slashing-ai-response-times/