مدل‌های زبانی بزرگ اکنون می‌توانند بدون برچسب یاد بگیرند: محققان دانشگاه Tsinghua و آزمایشگاه هوش مصنوعی شانگهای، یادگیری تقویتی در زمان آزمایش (TTRL) را برای فعال کردن مدل‌های زبانی خود-تکاملی با استفاده از داده‌های بدون برچسب معرفی می‌کنند

نتایج ارزیابی TTRL
نتایج ارزیابی TTRL
مقایسه عملکرد TTRL
مقایسه عملکرد TTRL

یادگیری تقویتی در زمان آزمایش (TTRL): استفاده از دانش پیشین مدل برای خود-سازگاری

با وجود پیشرفت‌های چشمگیر در قابلیت‌های استدلال از طریق یادگیری تقویتی (RL)، اکثر مدل‌های زبانی بزرگ (LLM) اساساً به خطوط لوله داده‌های نظارت‌شده وابسته هستند. چارچوب‌های RL مانند RLHF عملکرد همسویی مدل و پیروی از دستورالعمل را بهبود بخشیده‌اند، اما به شدت به بازخورد انسانی و مجموعه‌داده‌های برچسب‌گذاری‌شده متکی هستند. از آنجایی که LLMها به طور فزاینده‌ای در محیط‌های پویا به کار گرفته می‌شوند—از محیط‌های آموزشی گرفته تا گردش‌های کاری علمی—لازم است که فراتر از داده‌های آموزشی تنظیم‌شده تعمیم یابند.

با این حال، مدل‌های موجود اغلب هنگام مواجهه با تغییرات توزیع یا وظایف استدلالی جدید، شکاف‌های عملکردی از خود نشان می‌دهند. در حالی که تکنیک‌هایی مانند مقیاس‌بندی در زمان آزمایش (TTS) و آموزش در زمان آزمایش (TTT) برای کاهش این مشکل پیشنهاد شده‌اند، فقدان سیگنال‌های پاداش قابل اعتماد در طول استنتاج، یک چالش اساسی برای استقرار RL در تنظیمات بدون نظارت ایجاد می‌کند.

یادگیری تقویتی در زمان آزمایش (TTRL): استفاده از دانش پیشین مدل برای خود-سازگاری

محققان دانشگاه Tsinghua و آزمایشگاه هوش مصنوعی شانگهای، یادگیری تقویتی در زمان آزمایش (TTRL) را معرفی کردند. TTRL یک چارچوب آموزشی است که RL را در طول استنتاج، فقط با استفاده از داده‌های آزمایشی بدون برچسب اعمال می‌کند. این چارچوب از دانش درونی مدل‌های زبانی از پیش آموزش‌دیده برای تخمین پاداش‌های شبه از طریق رأی‌گیری اکثریت در بین خروجی‌های نمونه‌برداری‌شده استفاده می‌کند.

به جای تکیه بر برچسب‌های صریح، TTRL توابع پاداش را با جمع‌آوری چندین پاسخ تولیدشده توسط مدل به یک پرسش معین ایجاد می‌کند. یک پاسخ اجماعی، که از طریق رأی‌گیری اکثریت به دست می‌آید، به عنوان یک شبه‌برچسب در نظر گرفته می‌شود. پاسخ‌های مدلی که با این شبه‌برچسب همسو هستند، به طور مثبت تقویت می‌شوند. این فرمول‌بندی، استنتاج در زمان آزمایش را به یک فرآیند یادگیری تطبیقی و خود-نظارتی تبدیل می‌کند و به LLMها اجازه می‌دهد تا بدون نظارت اضافی در طول زمان بهبود یابند.

TTRL دارای یک رویکرد دو مرحله‌ای است:

  • تخمین برچسب از طریق رأی‌گیری اکثریت: برای هر دستور، مدل چندین خروجی را نمونه‌برداری می‌کند. متداول‌ترین پیش‌بینی به عنوان برچسب تخمین‌زده‌شده در نظر گرفته می‌شود.
  • تخصیص پاداش و بهینه‌سازی سیاست: یک پاداش باینری بر اساس اینکه آیا هر پاسخ نمونه‌برداری‌شده با برچسب تخمین‌زده‌شده مطابقت دارد یا خیر، اختصاص داده می‌شود. مدل با استفاده از الگوریتم‌های RL مبتنی بر گرادیان (به عنوان مثال، PPO یا GRPO) به‌روزرسانی می‌شود تا توافق با شبه‌برچسب‌ها را به حداکثر برساند.

این رویکرد به دلیل سادگی و سازگاری با روش‌های استاندارد RL قابل توجه است. تابع پاداش، اگرچه تقریبی است، اما هنگام جمع‌آوری بر روی چندین نمونه، سیگنال یادگیری کافی را فراهم می‌کند. تنظیمات تجربی از نمونه‌برداری کنترل‌شده با دما (به طور معمول دما = 1.0) با 64 نمونه برای رأی‌گیری و 16 پاسخ فرعی نمونه‌برداری‌شده برای به‌روزرسانی‌های آموزشی استفاده می‌کنند. هیچ برچسب حقیقت زمینی در هیچ مرحله‌ای دخیل نیست.

یافته‌های تجربی در سراسر وظایف استدلال ریاضی

TTRL بر روی سه معیار ریاضی ارزیابی شد: AIME 2024، AMC و MATH-500. نتایج در هر دو مدل کوچکتر و بزرگتر سازگار است:

  • برای Qwen2.5-Math-7B، عملکرد در AIME 2024 از 16.7٪ به 43.3٪ (pass@1) افزایش یافت، یک بهبود 159.3٪ بدون هیچ گونه داده برچسب‌گذاری شده.
  • به طور متوسط، در سراسر سه معیار، همان مدل به یک سود نسبی 84.1٪ دست یافت.
  • به طور قابل توجهی، حتی یک مدل کوچکتر، Qwen2.5-Math-1.5B، در MATH-500 از 33.0٪ به 80.0٪ بهبود یافت.

این دستاوردها نشان می‌دهد که TTRL از بهبود مدل حتی در غیاب سیگنال‌های آموزشی نظارت‌شده پشتیبانی می‌کند. علاوه بر این، TTRL اغلب از حد بالایی که توسط سیگنال آموزشی خود подразумевается - یعنی دقت پیش‌بینی‌های رأی‌گیری اکثریت - بهتر عمل می‌کند. این نشان‌دهنده یک حلقه یادگیری خودتقویتی است که می‌تواند نظارت غنی‌تری را از سیگنال‌های اجماعی پر سر و صدا استخراج کند.

تحلیل‌های اضافی نشان داد که TTRL فراتر از مجموعه داده‌ای که روی آن اعمال شده بود، تعمیم می‌یابد. هنگامی که روی یک معیار آموزش داده شد و روی معیارهای دیگر ارزیابی شد، بهبود عملکرد همچنان ادامه داشت. این انتقال بین وظیفه‌ای نشان می‌دهد که TTRL منجر به بیش‌برازش باریک نمی‌شود، بلکه از تعمیم گسترده‌تر پشتیبانی می‌کند.

نتیجه‌گیری: به سوی یادگیری خود-تطبیقی و بدون برچسب

TTRL نشان‌دهنده یک تغییر جدید در نحوه استفاده از یادگیری تقویتی در LLMها در تنظیمات دنیای واقعی است. با استفاده مجدد از تولیدات خود مدل به عنوان یک پروکسی برای نظارت، نیاز به حاشیه‌نویسی‌های پرهزینه انسانی را از بین می‌برد و در عین حال سازگاری مداوم را امکان‌پذیر می‌کند. این رویکرد به طور طبیعی با اندازه مدل مقیاس می‌شود، با الگوریتم‌های مختلف RL سازگار است و مقاومت امیدوارکننده‌ای را در سراسر وظایف با دشواری‌های مختلف نشان می‌دهد.

در حالی که این مطالعه بر استدلال ریاضی متمرکز است، ایده‌های اساسی - نظارت خود-تخمین‌زده‌شده، انطباق در زمان آزمایش و یادگیری تقویتی بدون برچسب - ممکن است به حوزه‌های دیگر تعمیم یابد. از آنجایی که مدل‌های زبانی به طور فزاینده‌ای با وظایفی فراتر از توزیع پیش‌آموزشی خود مواجه می‌شوند، چارچوب‌هایی مانند TTRL یک مسیر مقیاس‌پذیر رو به جلو ارائه می‌دهند.

بررسی بیشتر برای درک خواص همگرایی نظری TTRL و ارزیابی کاربرد آن در سناریوهای تعاملی یا چند عاملی مورد نیاز است. با این وجود، TTRL یک پایه فنی و از نظر محاسباتی کارآمد برای فعال کردن LLMها برای تکامل مداوم از خروجی‌های خود فراهم می‌کند.


مقاله را در اینجا و صفحه گیت‌هاب را در اینجا مشاهده کنید.