مقایسه عملکرد مدل‌ها.
مقایسه عملکرد مدل‌ها.

ThinkPRM: مدل‌های پاداش فرآیند مولد برای تأیید مقیاس‌پذیر استدلال

استدلال با مدل‌های زبان بزرگ (LLMs) می‌تواند از استفاده بیشتر از منابع محاسباتی تست بهره‌مند شود، که این امر به مدل‌های پاداش فرآیند (PRMs) با کیفیت بالا برای انتخاب مسیرهای امیدوارکننده جهت جستجو یا رتبه‌بندی وابسته است. PRMs به جفت‌های مسئله-راه‌حل امتیاز می‌دهند تا نشان دهند آیا راه‌حل صحیح است یا خیر، و به صورت طبقه‌بندی‌کننده‌های متمایزکننده پیاده‌سازی شده‌اند. با این حال، این مدل‌ها به منابع گسترده‌ای از جمله حاشیه‌نویسی انسانی، راه‌حل‌های گام به گام طلایی، یا محاسبات سنگین rollouts نیاز دارند. روش‌های LLM-as-a-judge مزایایی در کارایی داده و قابلیت تفسیرپذیری ارائه می‌دهند، اما در مقایسه با مدل‌های پاداش تخصصی برای کارهای استدلالی پیچیده عملکرد ضعیفی دارند و در تشخیص استدلال نادرست شکست می‌خورند. این امر چالشی را برای حفظ مزایای کارایی داده و قابلیت تفسیرپذیری در عین دستیابی به عملکرد برتر PRMs متمایزکننده ایجاد می‌کند.

رویکردهای تحقیقاتی برای حل چالش‌های تأیید فرآیند سه مسیر اصلی را دنبال کرده‌اند. PRMs متمایزکننده به عنوان طبقه‌بندی‌کننده‌هایی عمل می‌کنند که نمرات صحت عددی را برای هر مرحله استدلال پیش‌بینی می‌کنند و به حاشیه‌نویسی‌های گسترده در سطح مرحله نیاز دارند. PRMs مولد تأیید را به عنوان یک کار تولید زبان چارچوب‌بندی می‌کنند و تصمیمات صحت را به صورت توکن‌های زبان طبیعی همراه با زنجیره فکری (CoT) تأیید تولید می‌کنند. این مدل‌ها نمرات صحت را از طریق احتمالات توکن شرطی مانند P(“correct”) محاسبه می‌کنند، که آن‌ها را ذاتاً قابل تفسیر و مقیاس‌پذیر می‌سازد. تکنیک‌های مقیاس‌گذاری زمان تست مانند انتخاب بهترین از N و جستجوی مبتنی بر درخت، عملکرد استدلال را با استفاده از منابع محاسباتی اضافی زمان استنتاج بهبود می‌بخشند. اثربخشی این رویکردها به شدت به کیفیت تأییدکننده برای امتیازدهی به راه‌حل‌ها بستگی دارد.

محققانی از دانشگاه میشیگان، میلا، LG AI Research و دانشگاه ایلینوی اربانا-شامپین، THINKPRM را پیشنهاد کرده‌اند که یک تأییدکننده Long CoT است که با برچسب‌های فرآیندی بسیار کمتر از آنچه که توسط PRMs متمایزکننده نیاز است، تنظیم دقیق شده است. این مدل از توانایی‌های استدلالی ذاتی مدل‌های Long CoT استفاده می‌کند تا هم از LLM-as-a-Judge و هم از تأییدکننده‌های متمایزکننده پیشی بگیرد، در حالی که تنها از 1% برچسب‌های فرآیندی در PRM800K در چندین معیار چالش‌برانگیز استفاده می‌کند. تحت بودجه توکن برابر، THINKPRM محاسبات تأیید را به طور مؤثرتر از LLM-as-a-Judge مقیاس‌بندی می‌کند و در زیرمجموعه‌ای از ProcessBench با 7.2% از آن پیشی می‌گیرد، که ارزش PRMs مولد و Long CoT را برای مقیاس‌بندی محاسبات تأیید زمان تست با حداقل نظارت برجسته می‌کند.

THINKPRM در برابر DiscPRM ارزیابی می‌شود، که همان مدل پایه است که با cross-entropy باینری بر روی کل مجموعه داده PRM800K شامل 712 هزار برچسب فرآیند از 98 هزار جفت مسئله-راه‌حل تنظیم دقیق شده است. مقایسه‌های اضافی شامل رأی‌گیری با اکثریت ساده و رأی‌گیری با اکثریت وزن‌دهی شده توسط تأییدکننده برای آزمایش‌های best-of-N است. نتایج بر روی سه کار استدلال ریاضی نشان داده شده‌اند: 100 مسئله از MATH-500 با پوشش تمام سطوح دشواری، مسائل آزمون ریاضی دعوتی آمریکا (AIME) 2024، و کارهای خارج از دامنه شامل مسائل فیزیک از GPQA-Diamond و زیرمجموعه‌ای 200 مسئله‌ای از LiveCodeBench v5. برای MATH-500، محققان از THINKPRM-1.5B و THINKPRM-14B با دو مدل تولیدکننده مختلف استفاده کردند.

در انتخاب best-of-N با MATH500، THINKPRM در تمام بودجه‌های نمونه‌گیری، دقت استدلال بالاتر یا قابل مقایسه با DiscPRM را به دست می‌آورد. تحت جستجوی هدایت‌شده توسط تأییدکننده در MATH-500، THINKPRM-1.5B تقریباً 5 واحد درصد از discPRM پیشی می‌گیرد و با استفاده از همان مدل پایه (R1-Qwen-1.5B) از LLM-as-a-judge فراتر می‌رود. منحنی مقیاس‌گذاری THINKPRM-1.5B از تمام baseline‌ها پیشی می‌گیرد هنگامی که با PRMs قوی آماده مانند RLHFFlow-Deepseek-PRM و MATH-Shepherd-PRM مقایسه می‌شود، و در 16 پرتو، بیش از 7% از RLHFFlow-Deepseek-PRM پیشی می‌گیرد. برای ارزیابی خارج از دامنه، THINKPRM مقیاس‌گذاری بهتری نسبت به DiscPRM در GPQA-physics نشان می‌دهد و با 8% از آن پیشی می‌گیرد، در حالی که در LiveCodeBench، THINKPRM با 4.5% از DiscPRM پیشی می‌گیرد.

در نتیجه، محققان THINKPRM را معرفی کردند، یک مدل پاداش فرآیند مولد که با حداقل نظارت بر روی داده‌های سنتتیک آموزش داده شده است، و امکان تأیید کارآمد و مقیاس‌پذیر استدلال گام به گام را فراهم می‌کند. محققان نشان می‌دهند که تنظیم دقیق سبک PRMs مولد بر روی تنها 8 هزار برچسب فرآیند می‌تواند baseline‌های LLM-as-a-judge صفر-شات را بهبود بخشد. THINKPRM همچنین از PRMs متمایزکننده آموزش دیده با تعداد قابل توجهی بیشتر برچسب فرآیند پیشی می‌گیرد، که مزایای استفاده از اهداف مدل‌سازی زبان مولد را برای قابلیت تفسیرپذیری، مقیاس‌پذیری و کارایی داده برجسته می‌کند. نتایج بر پتانسیل PRMs مولد برای مقیاس‌بندی مؤثر محاسبات تأیید در زمان تست، و سودمندی آن‌ها برای حوزه‌های چالش‌برانگیز مانند استدلال ریاضی و علمی تأکید دارد.

مقاله را در اینجا بررسی کنید. همچنین، فراموش نکنید که ما را در توییتر دنبال کنید و به کانال تلگرام و گروه لینکدین ما بپیوندید. فراموش نکنید که به ساب‌ردیت ML بیش از 90 هزار نفری ما بپیوندید.