شکستن قالب اتورگرسیو: LLaDA ثابت می‌کند مدل‌های انتشار می‌توانند با معماری‌های سنتی زبان رقابت کنند

معماری LLaDA
منبع: https://arxiv.org/pdf/2502.09992

حوزه مدل‌های زبانی بزرگ مدت‌هاست که تحت سلطه روش‌های اتورگرسیو بوده است که متن را به طور متوالی از چپ به راست پیش‌بینی می‌کنند. در حالی که این رویکردها سیستم‌های هوش مصنوعی توانمند امروزی را تقویت می‌کنند، با محدودیت‌های اساسی در کارایی محاسباتی و استدلال دوطرفه مواجه هستند. یک تیم تحقیقاتی از چین اکنون این فرض را به چالش کشیده است که مدل‌سازی اتورگرسیو تنها راه دستیابی به توانایی‌های زبانی شبیه انسان است و یک معماری مبتنی بر انتشار نوآورانه به نام LLaDA را معرفی کرده است که نحوه پردازش اطلاعات توسط مدل‌های زبانی را دوباره تصور می‌کند.

مدل‌های زبانی فعلی از طریق پیش‌بینی کلمه بعدی عمل می‌کنند و با افزایش اندازه پنجره‌های متن، محاسبات پیچیده‌تری را می‌طلبند. این ماهیت متوالی باعث ایجاد گلوگاه‌هایی در سرعت پردازش می‌شود و اثربخشی در وظایفی که نیاز به استدلال معکوس دارند را محدود می‌کند. به عنوان مثال، مدل‌های اتورگرسیو سنتی از نفرین معکوس رنج می‌برند - پدیده‌ای که در آن مدل‌هایی که برای پیش‌بینی توکن بعدی آموزش داده شده‌اند، با وظایف منطقی معکوس دست و پنجه نرم می‌کنند. تکمیل شعر را در نظر بگیرید:

  • وظیفه مستقیم (قدرت اتورگرسیو): با توجه به提示 "گل‌ها قرمز هستند"، مدل‌ها به راحتی با "بنفش‌ها آبی هستند" ادامه می‌دهند.
  • وظیفه معکوس (ضعف اتورگرسیو): با توجه به "بنفش‌ها آبی هستند"، همین مدل‌ها اغلب نمی‌توانند "گل‌ها قرمز هستند" را به عنوان خط قبلی به خاطر بیاورند.

این جهت‌گیری ناشی از آموزش آن‌ها برای پیش‌بینی متن دقیقاً از چپ به راست است. در حالی که مدل‌های زبانی پوشانده شده (مانند BERT) وجود دارند، اما به طور سنتی از نسبت‌های پوشش ثابت استفاده می‌کنند و قابلیت‌های تولیدی آن‌ها را محدود می‌کنند. محققان LLaDA (انتشار زبان بزرگ با پوشش) را پیشنهاد می‌کنند که یک استراتژی پوشش پویا را در مراحل انتشار برای غلبه بر این محدودیت‌ها پیاده‌سازی می‌کند (در شکل 2 نشان داده شده است). برخلاف مدل‌های اتورگرسیو، LLaDA توکن‌ها را به طور موازی از طریق یک چارچوب دوطرفه پردازش می‌کند و روابط متنی را در تمام جهات به طور همزمان یاد می‌گیرد.

معماری LLaDA از یک ترانسفورماتور بدون پوشش علّی استفاده می‌کند که از طریق دو مرحله آموزش داده می‌شود:

  1. پیش‌آموزش: مدل یاد می‌گیرد قطعات متنی که به طور تصادفی پوشانده شده‌اند را در 2.3 تریلیون توکن بازسازی کند. تصور کنید که یک نسخه خطی آسیب‌دیده را تعمیر می‌کنید که در آن کلمات به طور غیرقابل پیش‌بینی ناپدید می‌شوند - LLaDA پر کردن شکاف‌ها را به هر ترتیبی تمرین می‌کند. به عنوان مثال:
  • با یک جمله پوشانده شده شروع کنید: "[پوشش] قرمز هستند، [پوشش] آبی هستند."
  • ابتدا "بنفش" را برای جای خالی دوم پیش‌بینی کنید، سپس "گل‌ها" را برای اولی.
  • چرخه‌های مکرر پوشش/رفع پوشش، جهت‌گیری را از بین می‌برند.
  1. تنظیم دقیق نظارت شده: مدل با پوشاندن تنها بخش پاسخ، با جفت‌های دستورالعمل-پاسخ سازگار می‌شود و بهبودهای خاص وظیفه را در حالی که درک دوطرفه را حفظ می‌کند، امکان‌پذیر می‌کند.

در طول تولید، LLaDA با فیلدهای خروجی کاملاً پوشانده شده شروع می‌کند و به طور مکرر پیش‌بینی‌ها را از طریق پوشش مجدد مبتنی بر اطمینان اصلاح می‌کند:

  1. در هر مرحله انتشار، مدل تمام توکن‌های پوشانده شده را به طور همزمان پیش‌بینی می‌کند.
  2. پیش‌بینی‌های با اطمینان پایین (به عنوان مثال، کلمات نامشخص در خط افتتاحیه یک شعر) برای ارزیابی مجدد دوباره پوشانده می‌شوند.
  3. این فرآیند "بازپخت معنایی" تکرار می‌شود تا زمانی که متن منسجمی ظاهر شود.
  4. معماری LLaDA
    منبع: https://arxiv.org/pdf/2502.09992

    ارزیابی‌های عملکرد قابلیت‌های شگفت‌انگیزی را نشان می‌دهد. هنگامی که LLaDA به 8 میلیارد پارامتر مقیاس می‌شود، با مدل‌های اتورگرسیو هم اندازه مانند LLaMA2-7B در 15 معیار برابری می‌کند یا از آن فراتر می‌رود و در استدلال ریاضی (GSM8K) و وظایف چینی برتری دارد. نکته مهم این است که بر نفرین معکوس غلبه می‌کند:

    • دستیابی به دقت 42% در وظایف تکمیل شعر معکوس در مقابل 32% GPT-4، در حالی که برابری در تولید مستقیم را حفظ می‌کند.
    • عملکرد ثابتی را در وظایف پرسش و پاسخ معکوس نشان داد (به عنوان مثال، "مادر تام کروز کیست؟" در مقابل "پسر مری لی پفیفر کیست؟")، جایی که مدل‌های اتورگرسیو اغلب با شکست مواجه می‌شوند.

    این مدل همچنین مقیاس‌بندی کارآمدی را نشان می‌دهد - هزینه‌های محاسباتی به طور قابل مقایسه‌ای با معماری‌های سنتی با وجود رویکرد جدید آن رشد می‌کنند. به طور خاص، در وظایفی مانند MMLU و GSM8K، LLaDA مقیاس‌پذیری قوی‌تری را نیز نشان می‌دهد.

    به طور خلاصه، این پیشرفت نشان می‌دهد که قابلیت‌های کلیدی زبان از اصول تولیدی اساسی ناشی می‌شوند، نه تنها طرح‌های اتورگرسیو. در حالی که پیاده‌سازی‌های فعلی کمی در وظایفی مانند MMLU عقب هستند (احتمالاً به دلیل تغییرات کیفیت داده)، LLaDA مدل‌های انتشار را به عنوان جایگزین‌های مناسب تثبیت می‌کند. این تحقیق درها را به روی تولید موازی و استدلال دوطرفه باز می‌کند، اگرچه چالش‌هایی در بهینه‌سازی استنتاج و همسویی با ترجیحات انسانی باقی می‌ماند. همانطور که این حوزه این جایگزین‌ها را بررسی می‌کند، ممکن است شاهد مراحل اولیه یک تغییر پارادایم در نحوه پردازش زبان توسط ماشین‌ها باشیم - مدلی که در آن مدل‌ها به جای محدود شدن به پیش‌بینی خطی، "به طور کل‌نگر فکر می‌کنند".