استدلال با مدلهای زبان بزرگ (LLMs) میتواند از استفاده بیشتر از منابع محاسباتی تست بهرهمند شود، که این امر به مدلهای پاداش فرآیند (PRMs) با کیفیت بالا برای انتخاب مسیرهای امیدوارکننده جهت جستجو یا رتبهبندی وابسته است. PRMs به جفتهای مسئله-راهحل امتیاز میدهند تا نشان دهند آیا راهحل صحیح است یا خیر، و به صورت طبقهبندیکنندههای متمایزکننده پیادهسازی شدهاند. با این حال، این مدلها به منابع گستردهای از جمله حاشیهنویسی انسانی، راهحلهای گام به گام طلایی، یا محاسبات سنگین rollouts نیاز دارند. روشهای LLM-as-a-judge مزایایی در کارایی داده و قابلیت تفسیرپذیری ارائه میدهند، اما در مقایسه با مدلهای پاداش تخصصی برای کارهای استدلالی پیچیده عملکرد ضعیفی دارند و در تشخیص استدلال نادرست شکست میخورند. این امر چالشی را برای حفظ مزایای کارایی داده و قابلیت تفسیرپذیری در عین دستیابی به عملکرد برتر PRMs متمایزکننده ایجاد میکند.
رویکردهای تحقیقاتی برای حل چالشهای تأیید فرآیند سه مسیر اصلی را دنبال کردهاند. PRMs متمایزکننده به عنوان طبقهبندیکنندههایی عمل میکنند که نمرات صحت عددی را برای هر مرحله استدلال پیشبینی میکنند و به حاشیهنویسیهای گسترده در سطح مرحله نیاز دارند. PRMs مولد تأیید را به عنوان یک کار تولید زبان چارچوببندی میکنند و تصمیمات صحت را به صورت توکنهای زبان طبیعی همراه با زنجیره فکری (CoT) تأیید تولید میکنند. این مدلها نمرات صحت را از طریق احتمالات توکن شرطی مانند P(“correct”) محاسبه میکنند، که آنها را ذاتاً قابل تفسیر و مقیاسپذیر میسازد. تکنیکهای مقیاسگذاری زمان تست مانند انتخاب بهترین از N و جستجوی مبتنی بر درخت، عملکرد استدلال را با استفاده از منابع محاسباتی اضافی زمان استنتاج بهبود میبخشند. اثربخشی این رویکردها به شدت به کیفیت تأییدکننده برای امتیازدهی به راهحلها بستگی دارد.
محققانی از دانشگاه میشیگان، میلا، LG AI Research و دانشگاه ایلینوی اربانا-شامپین، THINKPRM را پیشنهاد کردهاند که یک تأییدکننده Long CoT است که با برچسبهای فرآیندی بسیار کمتر از آنچه که توسط PRMs متمایزکننده نیاز است، تنظیم دقیق شده است. این مدل از تواناییهای استدلالی ذاتی مدلهای Long CoT استفاده میکند تا هم از LLM-as-a-Judge و هم از تأییدکنندههای متمایزکننده پیشی بگیرد، در حالی که تنها از 1% برچسبهای فرآیندی در PRM800K در چندین معیار چالشبرانگیز استفاده میکند. تحت بودجه توکن برابر، THINKPRM محاسبات تأیید را به طور مؤثرتر از LLM-as-a-Judge مقیاسبندی میکند و در زیرمجموعهای از ProcessBench با 7.2% از آن پیشی میگیرد، که ارزش PRMs مولد و Long CoT را برای مقیاسبندی محاسبات تأیید زمان تست با حداقل نظارت برجسته میکند.
THINKPRM در برابر DiscPRM ارزیابی میشود، که همان مدل پایه است که با cross-entropy باینری بر روی کل مجموعه داده PRM800K شامل 712 هزار برچسب فرآیند از 98 هزار جفت مسئله-راهحل تنظیم دقیق شده است. مقایسههای اضافی شامل رأیگیری با اکثریت ساده و رأیگیری با اکثریت وزندهی شده توسط تأییدکننده برای آزمایشهای best-of-N است. نتایج بر روی سه کار استدلال ریاضی نشان داده شدهاند: 100 مسئله از MATH-500 با پوشش تمام سطوح دشواری، مسائل آزمون ریاضی دعوتی آمریکا (AIME) 2024، و کارهای خارج از دامنه شامل مسائل فیزیک از GPQA-Diamond و زیرمجموعهای 200 مسئلهای از LiveCodeBench v5. برای MATH-500، محققان از THINKPRM-1.5B و THINKPRM-14B با دو مدل تولیدکننده مختلف استفاده کردند.
در انتخاب best-of-N با MATH500، THINKPRM در تمام بودجههای نمونهگیری، دقت استدلال بالاتر یا قابل مقایسه با DiscPRM را به دست میآورد. تحت جستجوی هدایتشده توسط تأییدکننده در MATH-500، THINKPRM-1.5B تقریباً 5 واحد درصد از discPRM پیشی میگیرد و با استفاده از همان مدل پایه (R1-Qwen-1.5B) از LLM-as-a-judge فراتر میرود. منحنی مقیاسگذاری THINKPRM-1.5B از تمام baselineها پیشی میگیرد هنگامی که با PRMs قوی آماده مانند RLHFFlow-Deepseek-PRM و MATH-Shepherd-PRM مقایسه میشود، و در 16 پرتو، بیش از 7% از RLHFFlow-Deepseek-PRM پیشی میگیرد. برای ارزیابی خارج از دامنه، THINKPRM مقیاسگذاری بهتری نسبت به DiscPRM در GPQA-physics نشان میدهد و با 8% از آن پیشی میگیرد، در حالی که در LiveCodeBench، THINKPRM با 4.5% از DiscPRM پیشی میگیرد.
در نتیجه، محققان THINKPRM را معرفی کردند، یک مدل پاداش فرآیند مولد که با حداقل نظارت بر روی دادههای سنتتیک آموزش داده شده است، و امکان تأیید کارآمد و مقیاسپذیر استدلال گام به گام را فراهم میکند. محققان نشان میدهند که تنظیم دقیق سبک PRMs مولد بر روی تنها 8 هزار برچسب فرآیند میتواند baselineهای LLM-as-a-judge صفر-شات را بهبود بخشد. THINKPRM همچنین از PRMs متمایزکننده آموزش دیده با تعداد قابل توجهی بیشتر برچسب فرآیند پیشی میگیرد، که مزایای استفاده از اهداف مدلسازی زبان مولد را برای قابلیت تفسیرپذیری، مقیاسپذیری و کارایی داده برجسته میکند. نتایج بر پتانسیل PRMs مولد برای مقیاسبندی مؤثر محاسبات تأیید در زمان تست، و سودمندی آنها برای حوزههای چالشبرانگیز مانند استدلال ریاضی و علمی تأکید دارد.
مقاله را در اینجا بررسی کنید. همچنین، فراموش نکنید که ما را در توییتر دنبال کنید و به کانال تلگرام و گروه لینکدین ما بپیوندید. فراموش نکنید که به سابردیت ML بیش از 90 هزار نفری ما بپیوندید.