دیاگرامی مرتبط با این پژوهش.
دیاگرامی مرتبط با این پژوهش.

یادگیری تقویتی مقیاس‌پذیر با پاداش‌های قابل تأیید: مدل‌سازی پاداش مولد برای وظایف بدون ساختار و چند دامنه‌ای

یادگیری تقویتی با پاداش‌های قابل تأیید (RLVR) در تقویت توانایی‌های استدلال و کدنویسی مدل‌های زبانی بزرگ (LLM)، به ویژه در حوزه‌هایی که پاسخ‌های مرجع ساختاریافته امکان تأیید دقیق را فراهم می‌کنند، کارآمدی خود را ثابت کرده است. این رویکرد بر سیگنال‌های مبتنی بر مرجع تکیه دارد تا مشخص کند آیا پاسخ مدل با پاسخ صحیح شناخته شده مطابقت دارد یا خیر، که معمولاً از طریق برچسب‌های صحت دودویی یا نمرات درجه‌بندی شده انجام می‌شود. RLVR عمدتاً در زمینه‌هایی مانند ریاضیات و کدنویسی به کار گرفته شده است، جایی که تأیید مبتنی بر قوانین یا با کمک ابزار، ساده است. با این حال، گسترش RLVR به وظایف پیچیده‌تر و کمتر ساختاریافته به دلیل چالش‌های تأیید پاسخ‌های مرجع باز یا مبهم، دشوار بوده است. اگرچه مدل‌های مولد و LLMهای منبع بسته مانند GPT-4o به عنوان تأییدکننده مورد بررسی قرار گرفته‌اند، این راه‌حل‌ها اغلب خاص دامنه باقی می‌مانند و به مجموعه داده‌های حاشیه‌نویسی شده گسترده برای آموزش نیاز دارند.

تحولات اخیر با معرفی مدل‌سازی پاداش مولد، که در آن LLMها از توانایی‌های مولد خود برای تولید قضاوت‌ها و توجیهات استفاده می‌کنند، به دنبال گسترش کاربردهای RLVR هستند. این مدل‌ها را می‌توان بدون نیاز به توضیحات دقیق آموزش داد و در عوض، بر اطمینان خروجی‌های تأییدکننده برای تولید سیگنال‌های پاداش پایدار تکیه کرد. این تکنیک از یادگیری تقویتی در وظایفی با برچسب‌های نویزی یا مبهم پشتیبانی می‌کند. علاوه بر این، پژوهشگران در حال بررسی RLVR در طیف وسیع‌تری از دامنه‌ها با استفاده از پاسخ‌های مرجع آزادتر هستند - که از حاشیه‌نویسی‌های متخصصان و داده‌های پیش‌آموزشی تهیه شده یا توسط LLMها تولید می‌شوند - و فراتر از وظایف محدود مانند معماهای ریاضی و منطقی حرکت می‌کنند. این تلاش‌ها گامی مهم به سوی آموزش RLVR مقیاس‌پذیر و عمومی برای دامنه‌های مختلف است.

پژوهشگران آزمایشگاه هوش مصنوعی تنسنت (Tencent AI Lab) و دانشگاه سوژو (Soochow University) در حال بررسی گسترش RLVR به دامنه‌های پیچیده و بدون ساختار مانند پزشکی، شیمی و آموزش هستند. آن‌ها نشان می‌دهند که قضاوت‌های صحت دودویی در میان LLMها زمانی که مراجع نوشته شده توسط متخصصان در دسترس باشند، سازگار باقی می‌مانند. برای رفع محدودیت‌های پاداش‌های دودویی در وظایف آزاد، آن‌ها سیگنال‌های پاداش نرم و مبتنی بر مدل مولد را معرفی می‌کنند. با استفاده از مدل‌های فشرده 7B، آن‌ها تأییدکننده‌های پاداش میان‌دامنه‌ای را بدون نیاز به حاشیه‌نویسی گسترده مخصوص دامنه آموزش می‌دهند. چارچوب RLVR آن‌ها به طور قابل توجهی از مدل‌های منبع باز برتر در وظایف استدلال بهتر عمل می‌کند و به طور مؤثری مقیاس‌پذیر است. آن‌ها همچنین یک مجموعه داده با 570 هزار نمونه را برای پشتیبانی از تحقیقات بیشتر در زمینه RLVR چند دامنه‌ای منتشر می‌کنند.

این روش از پاسخ‌های مرجع نوشته شده توسط متخصصان برای هدایت تخمین پاداش برای یادگیری تقویتی استفاده می‌کند. پاسخ‌ها با استفاده از یک تأییدکننده LLM مولد ارزیابی می‌شوند که پاداش‌های دودویی (0/1) یا نرم را بر اساس احتمال صحت خروجی می‌دهد. پاداش‌ها با استفاده از نرمال‌سازی z-score برای آموزش پایدار و دینامیک یادگیری بهتر، نرمال می‌شوند. نویسندگان یک مدل پاداش مولد فشرده (7B) را با استفاده از قضاوت‌های جمع‌آوری شده در طول کاوش RL آموزش می‌دهند تا از اتکای صرف به مدل‌های بزرگ اجتناب کنند. این برچسب‌های دودویی از یک LLM بزرگتر به دست می‌آیند و برای تنظیم دقیق تأییدکننده کوچکتر استفاده می‌شوند. این رویکرد عملکرد و کارایی را متعادل می‌کند و در عین حال مقاومت در برابر نویز و تغییرات قالب‌بندی را افزایش می‌دهد.

این مطالعه از دو مجموعه داده پرسش و پاسخ چینی در مقیاس بزرگ استفاده می‌کند - یکی با 773 هزار سؤال ریاضی آزاد در سطوح مختلف مدرسه و دیگری با 638 هزار سؤال چند موضوعی در سطح دانشگاه از ExamQA. این مجموعه داده‌ها شامل پاسخ‌های پیچیده و بدون ساختار هستند که روش‌های پاداش مبتنی بر قوانین را به چالش می‌کشند. پژوهشگران یک مدل پاداش 7B (RM-7B) را با استفاده از 160 هزار نمونه تقطیر شده آموزش دادند و رویکردهای مختلف RL را آزمایش کردند. نتایج نشان می‌دهد که RL با پاداش‌های مبتنی بر مدل از روش‌های مبتنی بر قوانین و تنظیم دقیق نظارت شده (SFT)، به ویژه در وظایف استدلال، بهتر عمل می‌کند. قابل ذکر است که RM-7B به عملکردی نزدیک به مدل بزرگتر 72B دست می‌یابد که کارایی آن را برجسته می‌کند. پاداش‌های دودویی به دلیل مسائل عدم تطابق معنایی، در تنظیمات مبتنی بر قوانین بهتر از پاداش‌های نرم عمل می‌کنند.

در نتیجه، این مطالعه با آموزش یک مدل مولد برای خروجی دادن نمرات دودویی (1 یا 0) بدون اتکا به استدلال زنجیره‌ای (Chain-of-Thought - CoT)، مدل‌سازی پاداش را ساده می‌کند. در حالی که CoT به استدلال کمک می‌کند، ضرورت آن برای تأیید شباهت معنایی نامشخص باقی می‌ماند. برخلاف کارهای گذشته که بر امتیازدهی مبتنی بر قالب تکیه داشتند، این رویکرد از قالب‌بندی دقیق پاسخ اجتناب می‌کند و تلاش دستی را کاهش می‌دهد. این پژوهش RLVR را فراتر از دامنه‌های ساختاریافته به حوزه‌هایی مانند پزشکی و اقتصاد گسترش می‌دهد، جایی که پاسخ‌های مرجع کمتر تعریف شده‌اند. با استفاده از یک مدل 7B، نشان می‌دهد که پاداش‌های نرم و مبتنی بر مدل، عملکرد را در وظایف آزاد افزایش می‌دهند، از مدل‌های بزرگتر بهتر عمل می‌کنند و سازگاری و مقیاس‌پذیری RLVR را بهبود می‌بخشند.