یادگیری تقویتی با پاداشهای قابل تأیید (RLVR) در تقویت تواناییهای استدلال و کدنویسی مدلهای زبانی بزرگ (LLM)، به ویژه در حوزههایی که پاسخهای مرجع ساختاریافته امکان تأیید دقیق را فراهم میکنند، کارآمدی خود را ثابت کرده است. این رویکرد بر سیگنالهای مبتنی بر مرجع تکیه دارد تا مشخص کند آیا پاسخ مدل با پاسخ صحیح شناخته شده مطابقت دارد یا خیر، که معمولاً از طریق برچسبهای صحت دودویی یا نمرات درجهبندی شده انجام میشود. RLVR عمدتاً در زمینههایی مانند ریاضیات و کدنویسی به کار گرفته شده است، جایی که تأیید مبتنی بر قوانین یا با کمک ابزار، ساده است. با این حال، گسترش RLVR به وظایف پیچیدهتر و کمتر ساختاریافته به دلیل چالشهای تأیید پاسخهای مرجع باز یا مبهم، دشوار بوده است. اگرچه مدلهای مولد و LLMهای منبع بسته مانند GPT-4o به عنوان تأییدکننده مورد بررسی قرار گرفتهاند، این راهحلها اغلب خاص دامنه باقی میمانند و به مجموعه دادههای حاشیهنویسی شده گسترده برای آموزش نیاز دارند.
تحولات اخیر با معرفی مدلسازی پاداش مولد، که در آن LLMها از تواناییهای مولد خود برای تولید قضاوتها و توجیهات استفاده میکنند، به دنبال گسترش کاربردهای RLVR هستند. این مدلها را میتوان بدون نیاز به توضیحات دقیق آموزش داد و در عوض، بر اطمینان خروجیهای تأییدکننده برای تولید سیگنالهای پاداش پایدار تکیه کرد. این تکنیک از یادگیری تقویتی در وظایفی با برچسبهای نویزی یا مبهم پشتیبانی میکند. علاوه بر این، پژوهشگران در حال بررسی RLVR در طیف وسیعتری از دامنهها با استفاده از پاسخهای مرجع آزادتر هستند - که از حاشیهنویسیهای متخصصان و دادههای پیشآموزشی تهیه شده یا توسط LLMها تولید میشوند - و فراتر از وظایف محدود مانند معماهای ریاضی و منطقی حرکت میکنند. این تلاشها گامی مهم به سوی آموزش RLVR مقیاسپذیر و عمومی برای دامنههای مختلف است.
پژوهشگران آزمایشگاه هوش مصنوعی تنسنت (Tencent AI Lab) و دانشگاه سوژو (Soochow University) در حال بررسی گسترش RLVR به دامنههای پیچیده و بدون ساختار مانند پزشکی، شیمی و آموزش هستند. آنها نشان میدهند که قضاوتهای صحت دودویی در میان LLMها زمانی که مراجع نوشته شده توسط متخصصان در دسترس باشند، سازگار باقی میمانند. برای رفع محدودیتهای پاداشهای دودویی در وظایف آزاد، آنها سیگنالهای پاداش نرم و مبتنی بر مدل مولد را معرفی میکنند. با استفاده از مدلهای فشرده 7B، آنها تأییدکنندههای پاداش میاندامنهای را بدون نیاز به حاشیهنویسی گسترده مخصوص دامنه آموزش میدهند. چارچوب RLVR آنها به طور قابل توجهی از مدلهای منبع باز برتر در وظایف استدلال بهتر عمل میکند و به طور مؤثری مقیاسپذیر است. آنها همچنین یک مجموعه داده با 570 هزار نمونه را برای پشتیبانی از تحقیقات بیشتر در زمینه RLVR چند دامنهای منتشر میکنند.
این روش از پاسخهای مرجع نوشته شده توسط متخصصان برای هدایت تخمین پاداش برای یادگیری تقویتی استفاده میکند. پاسخها با استفاده از یک تأییدکننده LLM مولد ارزیابی میشوند که پاداشهای دودویی (0/1) یا نرم را بر اساس احتمال صحت خروجی میدهد. پاداشها با استفاده از نرمالسازی z-score برای آموزش پایدار و دینامیک یادگیری بهتر، نرمال میشوند. نویسندگان یک مدل پاداش مولد فشرده (7B) را با استفاده از قضاوتهای جمعآوری شده در طول کاوش RL آموزش میدهند تا از اتکای صرف به مدلهای بزرگ اجتناب کنند. این برچسبهای دودویی از یک LLM بزرگتر به دست میآیند و برای تنظیم دقیق تأییدکننده کوچکتر استفاده میشوند. این رویکرد عملکرد و کارایی را متعادل میکند و در عین حال مقاومت در برابر نویز و تغییرات قالببندی را افزایش میدهد.
این مطالعه از دو مجموعه داده پرسش و پاسخ چینی در مقیاس بزرگ استفاده میکند - یکی با 773 هزار سؤال ریاضی آزاد در سطوح مختلف مدرسه و دیگری با 638 هزار سؤال چند موضوعی در سطح دانشگاه از ExamQA. این مجموعه دادهها شامل پاسخهای پیچیده و بدون ساختار هستند که روشهای پاداش مبتنی بر قوانین را به چالش میکشند. پژوهشگران یک مدل پاداش 7B (RM-7B) را با استفاده از 160 هزار نمونه تقطیر شده آموزش دادند و رویکردهای مختلف RL را آزمایش کردند. نتایج نشان میدهد که RL با پاداشهای مبتنی بر مدل از روشهای مبتنی بر قوانین و تنظیم دقیق نظارت شده (SFT)، به ویژه در وظایف استدلال، بهتر عمل میکند. قابل ذکر است که RM-7B به عملکردی نزدیک به مدل بزرگتر 72B دست مییابد که کارایی آن را برجسته میکند. پاداشهای دودویی به دلیل مسائل عدم تطابق معنایی، در تنظیمات مبتنی بر قوانین بهتر از پاداشهای نرم عمل میکنند.
در نتیجه، این مطالعه با آموزش یک مدل مولد برای خروجی دادن نمرات دودویی (1 یا 0) بدون اتکا به استدلال زنجیرهای (Chain-of-Thought - CoT)، مدلسازی پاداش را ساده میکند. در حالی که CoT به استدلال کمک میکند، ضرورت آن برای تأیید شباهت معنایی نامشخص باقی میماند. برخلاف کارهای گذشته که بر امتیازدهی مبتنی بر قالب تکیه داشتند، این رویکرد از قالببندی دقیق پاسخ اجتناب میکند و تلاش دستی را کاهش میدهد. این پژوهش RLVR را فراتر از دامنههای ساختاریافته به حوزههایی مانند پزشکی و اقتصاد گسترش میدهد، جایی که پاسخهای مرجع کمتر تعریف شدهاند. با استفاده از یک مدل 7B، نشان میدهد که پاداشهای نرم و مبتنی بر مدل، عملکرد را در وظایف آزاد افزایش میدهند، از مدلهای بزرگتر بهتر عمل میکنند و سازگاری و مقیاسپذیری RLVR را بهبود میبخشند.