برای دریافت آخرین بهروزرسانیها و محتوای اختصاصی در مورد پوشش هوش مصنوعی پیشرو در صنعت، در خبرنامههای روزانه و هفتگی ما عضو شوید. بیشتر بدانید
پژوهشگران دانشگاه کالیفرنیا، لسآنجلس (UCLA) و متا ایآی (Meta AI)، چارچوب جدیدی به نام d1 را معرفی کردهاند که از یادگیری تقویتی (Reinforcement Learning یا RL) برای افزایش قابل توجه قابلیتهای استدلال مدلهای زبانی بزرگ مبتنی بر انتشار (diffusion-based large language models یا dLLMs) استفاده میکند. در حالی که بیشتر توجهات بر روی مدلهای خود-بازگشتی (autoregressive) مانند GPT متمرکز شده است، dLLMها مزایای منحصر به فردی را ارائه میدهند. تقویت مهارتهای استدلال قوی در آنها میتواند کارایی و کاربردهای جدیدی را برای شرکتها باز کند.
dLLMها رویکردی متمایز برای تولید متن در مقایسه با مدلهای خود-بازگشتی استاندارد ارائه میدهند و به طور بالقوه مزایایی از نظر کارایی و پردازش اطلاعات دارند که میتواند برای کاربردهای مختلف دنیای واقعی ارزشمند باشد.
درک مدلهای زبانی انتشار
اکثر مدلهای زبانی بزرگ (Large Language Models یا LLMs) مانند GPT-4o و Llama خود-بازگشتی (AR) هستند. آنها متن را به صورت متوالی تولید میکنند، و توکن (token) بعدی را فقط بر اساس توکنهایی که قبل از آن آمدهاند، پیشبینی میکنند.
مدلهای زبانی انتشار (Diffusion Language Models یا dLLMs) به گونهای متفاوت عمل میکنند. مدلهای انتشار در ابتدا در مدلهای تولید تصویر مانند DALL-E 2، Midjourney و Stable Diffusion استفاده میشدند. ایده اصلی شامل افزودن تدریجی نویز به یک تصویر تا زمانی که به صورت ایستا (static) خالص درآید، و سپس آموزش یک مدل برای معکوس کردن دقیق این فرآیند است، به این صورت که از نویز شروع کرده و به تدریج آن را به یک تصویر منسجم تبدیل میکند.
تطبیق مستقیم این مفهوم با زبان دشوار بود زیرا متن از واحدهای گسسته (توکنها) تشکیل شده است، برخلاف مقادیر پیکسلی پیوسته در تصاویر. پژوهشگران با توسعه مدلهای زبانی انتشار پوششی (masked diffusion language models) بر این مشکل غلبه کردند. این مدلها به جای افزودن نویز پیوسته، با پوشاندن تصادفی توکنها در یک توالی و آموزش مدل برای پیشبینی توکنهای اصلی کار میکنند.
این منجر به فرآیند تولید متفاوتی در مقایسه با مدلهای خود-بازگشتی میشود. dLLMها با یک نسخه به شدت پوشیده شده از متن ورودی شروع میکنند و به تدریج آن را در چندین مرحله "رفع پوشش" یا پالایش میکنند تا خروجی نهایی و منسجم ظاهر شود. این تولید "درشت به ظریف" (coarse-to-fine) dLLMها را قادر میسازد تا کل متن را به طور همزمان در هر مرحله در نظر بگیرند، برخلاف تمرکز صرف بر روی توکن بعدی.
این تفاوت به dLLMها مزایای بالقوهای میدهد، مانند پردازش موازی بهبود یافته در طول تولید، که میتواند منجر به استنتاج سریعتر، به ویژه برای توالیهای طولانیتر شود. نمونههایی از این نوع مدل عبارتند از LLaDA منبع باز و مدل Mercury بسته از Inception Labs.
آدیتیا گروور (Aditya Grover)، استادیار علوم کامپیوتر در UCLA و یکی از نویسندگان مقاله d1، به VentureBeat گفت: "در حالی که LLMهای خود-بازگشتی میتوانند از استدلال برای افزایش کیفیت استفاده کنند، این بهبود با هزینه محاسباتی شدیدی همراه است و LLMهای استدلال پیشرفته برای تولید یک پاسخ واحد بیش از 30 ثانیه تاخیر دارند." "در مقابل، یکی از مزایای کلیدی dLLMها، کارایی محاسباتی آنها است. به عنوان مثال، dLLMهای پیشرفته مانند Mercury میتوانند عملکردی 10 برابر بهتر از بهترین LLMهای خود-بازگشتی بهینه شده برای سرعت از آزمایشگاههای پیشرو داشته باشند."
یادگیری تقویتی برای dLLMها
با وجود مزایایشان، dLLMها هنوز در تواناییهای استدلال از مدلهای خود-بازگشتی عقبتر هستند. یادگیری تقویتی برای آموزش مهارتهای استدلال پیچیده به LLMها حیاتی شده است. با آموزش مدلها بر اساس سیگنالهای پاداش (اساساً پاداش دادن به آنها برای مراحل استدلال صحیح یا پاسخهای نهایی)، RL، LLMها را به سمت پیروی بهتر از دستورالعملها و استدلال سوق داده است.
الگوریتمهایی مانند Proximal Policy Optimization (PPO) و Group Relative Policy Optimization (GRPO) جدیدتر، در استفاده مؤثر از RL برای مدلهای خود-بازگشتی نقش اساسی داشتهاند. این روشها معمولاً بر محاسبه احتمال (یا لگاریتم احتمال) توالی متن تولید شده تحت سیاست فعلی مدل تکیه میکنند تا فرآیند یادگیری را هدایت کنند.
این محاسبه برای مدلهای خود-بازگشتی به دلیل تولید متوالی، توکن به توکن آنها ساده است. با این حال، برای dLLMها، با فرآیند تولید تکراری و غیر متوالی آنها، محاسبه مستقیم این احتمال توالی دشوار و از نظر محاسباتی پرهزینه است. این یک مانع بزرگ برای اعمال تکنیکهای RL تثبیت شده برای بهبود استدلال dLLM بوده است.
چارچوب d1 این چالش را با یک فرآیند پسآموزشی دو مرحلهای که به طور خاص برای dLLMهای پوششی طراحی شده است، حل میکند:
- تنظیم دقیق نظارت شده (Supervised Fine-Tuning یا SFT): ابتدا، dLLM از پیش آموزش دیده شده بر روی مجموعه دادهای از نمونههای استدلال با کیفیت بالا، تنظیم دقیق میشود. در این مقاله از مجموعه داده "s1k" استفاده شده است که شامل راه حلهای گام به گام دقیق برای مسائل است، از جمله نمونههایی از خود-اصلاحی و عقبگرد در هنگام وقوع خطا. هدف این مرحله القای الگوها و رفتارهای استدلال اساسی در مدل است.
- یادگیری تقویتی با diffu-GRPO: پس از SFT، مدل تحت آموزش RL با استفاده از یک الگوریتم جدید به نام diffu-GRPO قرار میگیرد. این الگوریتم اصول GRPO را با dLLMها تطبیق میدهد. این روش یک روش کارآمد برای تخمین احتمالات لگاریتمی ارائه میدهد و در عین حال از محاسبات پرهزینهای که قبلاً مورد نیاز بود، اجتناب میکند. همچنین یک تکنیک هوشمندانه به نام "پوشش تصادفی اعلان" را در خود جای داده است.
در طول آموزش RL، بخشهایی از اعلان ورودی به طور تصادفی در هر مرحله بهروزرسانی پوشانده میشوند. این به عنوان نوعی منظمسازی (regularization) و افزایش داده (data augmentation) عمل میکند و به مدل اجازه میدهد تا به طور موثرتری از هر دسته داده یاد بگیرد.
d1 در کاربردهای دنیای واقعی
پژوهشگران چارچوب d1 را بر روی LLaDA-8B-Instruct، یک dLLM منبع باز، اعمال کردند. آنها آن را با استفاده از مجموعه داده استدلال s1k برای مرحله SFT، تنظیم دقیق کردند. سپس چندین نسخه را مقایسه کردند: مدل پایه LLaDA، LLaDA فقط با SFT، LLaDA فقط با diffu-GRPO و d1-LLaDA کامل (SFT و به دنبال آن diffu-GRPO).
این مدلها بر روی معیارهای استدلال ریاضی (GSM8K، MATH500) و وظایف استدلال منطقی (سودوکو 4×4، بازی اعداد Countdown) آزمایش شدند.
نتایج نشان داد که d1-LLaDA کامل به طور مداوم بهترین عملکرد را در تمام وظایف به دست آورد. به طور قابل توجهی، diffu-GRPO به تنهایی نیز به طور قابل توجهی بهتر از SFT به تنهایی و مدل پایه عمل کرد.
گروور گفت: "dLLMهای تقویت شده با استدلال مانند d1 میتوانند انواع مختلفی از عاملها (agent) را برای حجم کاری شرکتها تغذیه کنند." "این شامل عاملهای کدنویسی برای مهندسی نرمافزار فوری، و همچنین تحقیقات عمیق فوقالعاده سریع برای استراتژی و مشاوره در زمان واقعی است... با عاملهای d1، گردش کار دیجیتال روزمره میتواند به طور همزمان خودکار و تسریع شود."
جالب اینجاست که پژوهشگران بهبودهای کیفی را مشاهده کردند، به ویژه هنگام تولید پاسخهای طولانیتر. مدلها شروع به نشان دادن "لحظات آها" کردند، و رفتارهای خود-اصلاحی و عقبگرد آموخته شده از نمونهها در مجموعه داده s1k را نشان دادند. این نشان میدهد که مدل فقط پاسخها را حفظ نمیکند، بلکه استراتژیهای حل مسئله قویتری را یاد میگیرد.
مدلهای خود-بازگشتی از نظر پذیرش، مزیت پیشگامی دارند. با این حال، گروور معتقد است که پیشرفتها در dLLMها میتواند پویایی میدان بازی را تغییر دهد. برای یک شرکت، یک راه برای تصمیمگیری بین این دو این است که آیا برنامه آنها در حال حاضر با محدودیتهای تاخیر یا هزینه مواجه است یا خیر.
به گفته گروور، dLLMهای انتشار تقویت شده با استدلال مانند d1 میتوانند به یکی از دو روش مکمل کمک کنند:
- اگر یک شرکت در حال حاضر قادر به انتقال به یک مدل استدلال بر اساس یک LLM خود-بازگشتی نیست، dLLMهای تقویت شده با استدلال یک جایگزین plug-and-play ارائه میدهند که به شرکتها اجازه میدهد کیفیت برتر مدلهای استدلال را با همان سرعت dLLMهای خود-بازگشتی غیر استدلال تجربه کنند.
- اگر برنامه شرکت اجازه بودجه تاخیر و هزینه بیشتری را میدهد، d1 میتواند ردیابیهای استدلال طولانیتری را با استفاده از همان بودجه تولید کند و کیفیت را بیشتر بهبود بخشد.
گروور گفت: "به عبارت دیگر، dLLMهای سبک d1 میتوانند LLMهای خود-بازگشتی را در محور کیفیت، سرعت و هزینه، پارتو-غالب (Pareto-dominate) کنند."