مدلهای زبانی سنتی متکی به رویکردهای خودبازگشتی هستند که متن را به صورت متوالی تولید میکنند و خروجیهای با کیفیت بالا را به قیمت سرعت استنباط پایین تضمین میکنند. در مقابل، مدلهای انتشار (diffusion models)، که در ابتدا برای تولید تصویر و ویدیو توسعه یافتند، به دلیل پتانسیل تولید موازی و بهبود قابلیت کنترل، در تولید متن مورد توجه قرار گرفتهاند. با این حال، مدلهای انتشار موجود با محدودیتهای طول ثابت و ناکارآمدی در مدلسازی احتمال، دست و پنجه نرم میکنند و اثربخشی آنها را در تولید متن با طول انعطافپذیر محدود میکنند.
یک چالش اساسی در مدلسازی زبان، ایجاد تعادل بین کارایی و کیفیت است. مدلهای خودبازگشتی وابستگیهای دوربرد را به طور موثر ثبت میکنند، اما از تولید آهسته توکن به توکن رنج میبرند. مدلهای انتشار، در حالی که امیدوارکننده هستند، به چندین مرحله استنباط نیاز دارند و معمولاً خروجیهای با طول ثابت تولید میکنند. این محدودیت مانع از کاربردی بودن آنها برای برنامههای کاربردی دنیای واقعی میشود که در آن توالیهای با طول متغیر ضروری هستند. این تحقیق با پیشنهاد روشی که نقاط قوت هر دو مدل خودبازگشتی و انتشار را ترکیب میکند، به این موضوع میپردازد و تولید متن کارآمد و با کیفیت بالا را بدون به خطر انداختن انعطافپذیری تضمین میکند.
روشهای فعلی در درجه اول شامل مدلهای خودبازگشتی است که متن را یک توکن در یک زمان بر اساس توکنهای تولید شده قبلی تولید میکنند. در حالی که این مدلها به روانی و انسجام بالایی دست مییابند، ذاتاً به دلیل ماهیت پردازش متوالی خود کند هستند. رویکردهای مبتنی بر انتشار به عنوان یک جایگزین مورد بررسی قرار گرفتهاند و تولید موازی را ارائه میدهند. با این حال، مدلهای انتشار موجود، توالیهای با طول ثابت تولید میکنند و فاقد ابزارهای کارآمد برای گسترش فراتر از زمینههای از پیش تعریف شده هستند. علیرغم ناکارآمدیهای آنها، عدم مقیاسپذیری در مدلهای انتشار منجر به تکیه مداوم بر روشهای خودبازگشتی شده است.
محققان Cornell Tech و دانشگاه استنفورد مدلهای زبانی انتشار حذف نویز گسسته بلوکی (BD3-LMs) را برای غلبه بر این محدودیتها معرفی کردند. این کلاس جدید از مدلها بین مدلهای خودبازگشتی و انتشار با استفاده از یک رویکرد ساختاریافته که از تولید طول متغیر پشتیبانی میکند و در عین حال کارایی استنباط را حفظ میکند، درونیابی میکند. BD3-LMs از ذخیرهسازی کلید-مقدار و نمونهبرداری موازی توکن برای کاهش سربار محاسباتی استفاده میکنند. این مدل با الگوریتمهای آموزشی تخصصی طراحی شده است که واریانس گرادیان را از طریق برنامههای نویز سفارشی به حداقل میرساند و عملکرد را در سراسر معیارهای مختلف مدلسازی زبان بهینه میکند.
BD3-LMs با ساختاربندی تولید متن به بلوکها به جای توکنهای منفرد عمل میکنند. برخلاف مدلهای خودبازگشتی سنتی که توکن بعدی را به صورت متوالی پیشبینی میکنند، BD3-LMs یک بلوک از توکنها را به طور همزمان تولید میکنند و به طور قابل توجهی کارایی را بهبود میبخشند. یک فرآیند حذف نویز مبتنی بر انتشار در داخل هر بلوک، تولید متن با کیفیت بالا را در عین حفظ انسجام تضمین میکند. معماری مدل، ترانسفورماتورها را با یک مکانیسم توجه علّی بلوکی ادغام میکند و به هر بلوک اجازه میدهد تا بر روی بلوکهای تولید شده قبلی شرطی شود. این رویکرد هم ارتباط متنی و هم روانی را افزایش میدهد. فرآیند آموزش شامل یک پیادهسازی برداری است که محاسبات موازی را امکانپذیر میکند و زمان آموزش و مصرف منابع را کاهش میدهد. محققان برنامههای نویز مبتنی بر داده را معرفی کردند که آموزش را تثبیت میکنند و تخمین گرادیان را برای رفع مشکل واریانس بالا در مدلهای انتشار بهبود میبخشند.
ارزیابی عملکرد BD3-LMs بهبودهای اساسی را نسبت به مدلهای انتشار گسسته موجود نشان میدهد. این مدل در میان مدلهای زبانی مبتنی بر انتشار، به نمرات پیچیدگی پیشرفته دست مییابد و در عین حال تولید توالیهای با طول دلخواه را امکانپذیر میکند. در آزمایشهایی که روی معیارهای مدلسازی زبان انجام شد، BD3-LMs پیچیدگی را در مقایسه با مدلهای انتشار قبلی تا 13٪ کاهش میدهد. در مجموعه داده LM1B، BD3-LMs هنگام استفاده از اندازه بلوک چهار، به پیچیدگی 28.23 دست یافت و از مدلهای قبلی مانند MDLM، که دارای پیچیدگی 31.78 بود، عملکرد بهتری داشت. در OpenWebText، BD3-LMs به پیچیدگی 20.73 دست یافت که به طور قابل توجهی بهتر از سایر مدلهای انتشار گسسته است. علاوه بر این، BD3-LMs توالیهایی تا 10 برابر طولانیتر از توالیهای تولید شده توسط روشهای انتشار سنتی تولید کرد و مقیاسپذیری برتری را نشان داد. مدل پیشنهادی همچنین تعداد ارزیابیهای تابع مورد نیاز برای استنباط را کاهش داد و به بازده نمونه بهبود یافته و سرعت تولید دست یافت.
معرفی BD3-LMs یک پیشرفت چشمگیر در مدلسازی زبان با ادغام روشهای خودبازگشتی و مبتنی بر انتشار ارائه میدهد. این تحقیق با پرداختن به چالشهای کلیدی مربوط به کارایی استنباط، تخمین احتمال و انعطافپذیری توالی، یک راهحل عملی و مقیاسپذیر برای تولید متن ارائه میدهد. BD3-LMs ثبات آموزش و کارایی محاسباتی را بهبود میبخشد و چارچوبی را ارائه میدهد که میتواند به پیشرفتهای مدلسازی زبان آینده گسترش یابد. نتایج، اثربخشی BD3-LMs را در پر کردن شکاف بین رویکردهای خودبازگشتی و مبتنی بر انتشار برجسته میکند و تعادل بهینهسازی شده بین کیفیت و سرعت در تولید متن را ارائه میدهد.
مقاله، پروژه و صفحه GitHub را بررسی کنید. تمام اعتبار این تحقیق به محققان این پروژه میرسد. همچنین، در توییتر ما را دنبال کنید و فراموش نکنید که به انجمن فرعی 80k+ ML ما بپیوندید.