یادگیری تقویتی در زمان آزمایش (TTRL): استفاده از دانش پیشین مدل برای خود-سازگاری
با وجود پیشرفتهای چشمگیر در قابلیتهای استدلال از طریق یادگیری تقویتی (RL)، اکثر مدلهای زبانی بزرگ (LLM) اساساً به خطوط لوله دادههای نظارتشده وابسته هستند. چارچوبهای RL مانند RLHF عملکرد همسویی مدل و پیروی از دستورالعمل را بهبود بخشیدهاند، اما به شدت به بازخورد انسانی و مجموعهدادههای برچسبگذاریشده متکی هستند. از آنجایی که LLMها به طور فزایندهای در محیطهای پویا به کار گرفته میشوند—از محیطهای آموزشی گرفته تا گردشهای کاری علمی—لازم است که فراتر از دادههای آموزشی تنظیمشده تعمیم یابند.
با این حال، مدلهای موجود اغلب هنگام مواجهه با تغییرات توزیع یا وظایف استدلالی جدید، شکافهای عملکردی از خود نشان میدهند. در حالی که تکنیکهایی مانند مقیاسبندی در زمان آزمایش (TTS) و آموزش در زمان آزمایش (TTT) برای کاهش این مشکل پیشنهاد شدهاند، فقدان سیگنالهای پاداش قابل اعتماد در طول استنتاج، یک چالش اساسی برای استقرار RL در تنظیمات بدون نظارت ایجاد میکند.
یادگیری تقویتی در زمان آزمایش (TTRL): استفاده از دانش پیشین مدل برای خود-سازگاری
محققان دانشگاه Tsinghua و آزمایشگاه هوش مصنوعی شانگهای، یادگیری تقویتی در زمان آزمایش (TTRL) را معرفی کردند. TTRL یک چارچوب آموزشی است که RL را در طول استنتاج، فقط با استفاده از دادههای آزمایشی بدون برچسب اعمال میکند. این چارچوب از دانش درونی مدلهای زبانی از پیش آموزشدیده برای تخمین پاداشهای شبه از طریق رأیگیری اکثریت در بین خروجیهای نمونهبرداریشده استفاده میکند.
به جای تکیه بر برچسبهای صریح، TTRL توابع پاداش را با جمعآوری چندین پاسخ تولیدشده توسط مدل به یک پرسش معین ایجاد میکند. یک پاسخ اجماعی، که از طریق رأیگیری اکثریت به دست میآید، به عنوان یک شبهبرچسب در نظر گرفته میشود. پاسخهای مدلی که با این شبهبرچسب همسو هستند، به طور مثبت تقویت میشوند. این فرمولبندی، استنتاج در زمان آزمایش را به یک فرآیند یادگیری تطبیقی و خود-نظارتی تبدیل میکند و به LLMها اجازه میدهد تا بدون نظارت اضافی در طول زمان بهبود یابند.
TTRL دارای یک رویکرد دو مرحلهای است:
- تخمین برچسب از طریق رأیگیری اکثریت: برای هر دستور، مدل چندین خروجی را نمونهبرداری میکند. متداولترین پیشبینی به عنوان برچسب تخمینزدهشده در نظر گرفته میشود.
- تخصیص پاداش و بهینهسازی سیاست: یک پاداش باینری بر اساس اینکه آیا هر پاسخ نمونهبرداریشده با برچسب تخمینزدهشده مطابقت دارد یا خیر، اختصاص داده میشود. مدل با استفاده از الگوریتمهای RL مبتنی بر گرادیان (به عنوان مثال، PPO یا GRPO) بهروزرسانی میشود تا توافق با شبهبرچسبها را به حداکثر برساند.
این رویکرد به دلیل سادگی و سازگاری با روشهای استاندارد RL قابل توجه است. تابع پاداش، اگرچه تقریبی است، اما هنگام جمعآوری بر روی چندین نمونه، سیگنال یادگیری کافی را فراهم میکند. تنظیمات تجربی از نمونهبرداری کنترلشده با دما (به طور معمول دما = 1.0) با 64 نمونه برای رأیگیری و 16 پاسخ فرعی نمونهبرداریشده برای بهروزرسانیهای آموزشی استفاده میکنند. هیچ برچسب حقیقت زمینی در هیچ مرحلهای دخیل نیست.
یافتههای تجربی در سراسر وظایف استدلال ریاضی
TTRL بر روی سه معیار ریاضی ارزیابی شد: AIME 2024، AMC و MATH-500. نتایج در هر دو مدل کوچکتر و بزرگتر سازگار است:
- برای Qwen2.5-Math-7B، عملکرد در AIME 2024 از 16.7٪ به 43.3٪ (pass@1) افزایش یافت، یک بهبود 159.3٪ بدون هیچ گونه داده برچسبگذاری شده.
- به طور متوسط، در سراسر سه معیار، همان مدل به یک سود نسبی 84.1٪ دست یافت.
- به طور قابل توجهی، حتی یک مدل کوچکتر، Qwen2.5-Math-1.5B، در MATH-500 از 33.0٪ به 80.0٪ بهبود یافت.
این دستاوردها نشان میدهد که TTRL از بهبود مدل حتی در غیاب سیگنالهای آموزشی نظارتشده پشتیبانی میکند. علاوه بر این، TTRL اغلب از حد بالایی که توسط سیگنال آموزشی خود подразумевается - یعنی دقت پیشبینیهای رأیگیری اکثریت - بهتر عمل میکند. این نشاندهنده یک حلقه یادگیری خودتقویتی است که میتواند نظارت غنیتری را از سیگنالهای اجماعی پر سر و صدا استخراج کند.
تحلیلهای اضافی نشان داد که TTRL فراتر از مجموعه دادهای که روی آن اعمال شده بود، تعمیم مییابد. هنگامی که روی یک معیار آموزش داده شد و روی معیارهای دیگر ارزیابی شد، بهبود عملکرد همچنان ادامه داشت. این انتقال بین وظیفهای نشان میدهد که TTRL منجر به بیشبرازش باریک نمیشود، بلکه از تعمیم گستردهتر پشتیبانی میکند.
نتیجهگیری: به سوی یادگیری خود-تطبیقی و بدون برچسب
TTRL نشاندهنده یک تغییر جدید در نحوه استفاده از یادگیری تقویتی در LLMها در تنظیمات دنیای واقعی است. با استفاده مجدد از تولیدات خود مدل به عنوان یک پروکسی برای نظارت، نیاز به حاشیهنویسیهای پرهزینه انسانی را از بین میبرد و در عین حال سازگاری مداوم را امکانپذیر میکند. این رویکرد به طور طبیعی با اندازه مدل مقیاس میشود، با الگوریتمهای مختلف RL سازگار است و مقاومت امیدوارکنندهای را در سراسر وظایف با دشواریهای مختلف نشان میدهد.
در حالی که این مطالعه بر استدلال ریاضی متمرکز است، ایدههای اساسی - نظارت خود-تخمینزدهشده، انطباق در زمان آزمایش و یادگیری تقویتی بدون برچسب - ممکن است به حوزههای دیگر تعمیم یابد. از آنجایی که مدلهای زبانی به طور فزایندهای با وظایفی فراتر از توزیع پیشآموزشی خود مواجه میشوند، چارچوبهایی مانند TTRL یک مسیر مقیاسپذیر رو به جلو ارائه میدهند.
بررسی بیشتر برای درک خواص همگرایی نظری TTRL و ارزیابی کاربرد آن در سناریوهای تعاملی یا چند عاملی مورد نیاز است. با این وجود، TTRL یک پایه فنی و از نظر محاسباتی کارآمد برای فعال کردن LLMها برای تکامل مداوم از خروجیهای خود فراهم میکند.