یادگیری تقویتی از پاداشهای قابلتأیید (RLVR) اخیراً بهعنوان روشی امیدوارکننده برای افزایش تواناییهای استدلال در مدلهای زبانی بدون نظارت مستقیم، ظهور کرده است. این رویکرد موفقیت قابلتوجهی در ریاضیات و برنامهنویسی نشان داده است، جایی که استدلال بهطور طبیعی با حل مسئله ساختاریافته همسو است. در حالی که مطالعات نشان دادهاند که RLVR بهتنهایی میتواند منجر به استدلال خودتکاملیافته شود، تحقیقات عمدتاً به این حوزههای فنی محدود بوده است. تلاشها برای گسترش RLVR، مجموعه دادههای مصنوعی مانند موارد مربوط به وظایف متوالی و شمارش اشیاء را بررسی کردهاند که پتانسیل این روش را نشان میدهد اما چالشهای تطبیق آن با حوزههای مختلف را نیز برجسته میکند.
گسترش RLVR به حوزههای وسیعتر همچنان یک چالش باز است، بهویژه در وظایفی مانند پاسخدهی به سؤالات چندگزینهای (MCQA)، که برچسبهای ساختاریافته و قابلتأییدی را در موضوعات متنوع، از جمله پزشکی، فراهم میکند. با این حال، برخلاف ریاضیات و برنامهنویسی که شامل استدلال پیچیده با فضای پاسخ باز هستند، وظایف MCQA معمولاً گزینههای پاسخ از پیش تعریفشدهای دارند، که باعث میشود نامشخص باشد آیا مزایای RLVR به طور مؤثری قابل انتقال است یا خیر. این محدودیت بهویژه در وظایف استدلال پزشکی مرتبط است، جایی که مدلها باید دانش بالینی پیچیده را برای تولید پاسخهای دقیق پیمایش کنند؛ حوزهای که برای سیستمهای هوش مصنوعی موجود دشوار بوده است.
پژوهشگران مایکروسافت ریسرچ بررسی میکنند که آیا استدلال پزشکی میتواند از طریق RLVR پدیدار شود. آنها MED-RLVR را معرفی میکنند که از دادههای MCQA پزشکی برای ارزیابی اثربخشی RLVR در حوزه پزشکی بهره میبرد. یافتههای آنها نشان میدهد که RLVR فراتر از ریاضیات و برنامهنویسی گسترش مییابد و به عملکردی قابل مقایسه با تنظیم دقیق نظارتشده (SFT) در وظایف درونتوزیعی دست مییابد، در حالی که تعمیمپذیری برونتوزیعی را به میزان قابلتوجه هشت درصد بهبود میبخشد. با تحلیل پویایی آموزش، آنها مشاهده میکنند که قابلیتهای استدلال در یک مدل پایه ۳ میلیارد پارامتری بدون نظارت صریح پدیدار میشود، که پتانسیل RLVR را برای پیشبرد استدلال در زمینههای دانشمحور مانند پزشکی برجسته میکند.
یادگیری تقویتی (RL) تصمیمگیری را با آموزش یک عامل برای به حداکثر رساندن پاداشها از طریق تعامل با یک محیط بهینه میکند. این روش به طور مؤثری برای مدلهای زبانی به منظور همسو کردن خروجیها با ترجیحات انسانی و اخیراً برای استخراج استدلال بدون نظارت صریح به کار گرفته شده است. این مطالعه از بهینهسازی خطمشی پروگزیمال (PPO) برای آموزش مدل خطمشی استفاده میکند و یک تابع هدف محدود شده را برای پایدارسازی آموزش در بر میگیرد. با استفاده از یک تابع پاداش مبتنی بر قاعده، MED-RLVR پاداشها را بر اساس صحت خروجی و اعتبار قالب تخصیص میدهد. بدون نظارت اضافی، مدل استدلال پزشکی نوظهوری را نشان میدهد، مشابه استدلال ریاضی در مطالعات قبلی RLVR، که پتانسیل RLVR را فراتر از حوزههای ساختاریافته برجسته میکند.
مجموعه داده MedQA-USMLE که شامل سؤالات چندگزینهای امتحانات پزشکی است، برای آموزش MED-RLVR استفاده میشود. برخلاف نسخه استاندارد چهار گزینهای، این مجموعه داده با ارائه گزینههای پاسخ بیشتر، چالش بزرگتری را ایجاد میکند. آموزش بر اساس مدل Qwen2.5-3B با استفاده از OpenRLHF برای یادگیری تقویتی انجام میشود. در مقایسه با SFT، MED-RLVR تعمیمپذیری برتری را نشان میدهد، بهویژه در مجموعه داده MMLU-Pro-Health. تجزیه و تحلیل شش مرحله از تکامل استدلال را آشکار میکند: خطاهای قالببندی، خروجیهای پرحرف، هک پاداش، و استدلال بازترکیبشده. برخلاف وظایف ریاضی یا برنامهنویسی، هیچ رفتار خوداعتبارسنجی ("لحظات آها") مشاهده نشد، که نشاندهنده بهبودهای بالقوه از طریق جریمه کردن زنجیرههای استدلال کوتاه یا تنظیم دقیق با زنجیرههای تفکر (CoT) طولانیتر است.
در نتیجه، این مطالعه بر روی MCQA در پزشکی تمرکز دارد و یک محیط کنترلشده برای ارزیابی فراهم میکند. با این حال، MCQA به طور کامل پیچیدگی وظایف دنیای واقعی مانند پاسخدهی به متن باز، تولید گزارش یا گفتگوهای پزشکی را در بر نمیگیرد. علاوه بر این، رویکرد تکوجهی، توانایی مدل را برای ادغام دادههای چندوجهی که برای کاربردهای تشخیصی حیاتی است، محدود میکند. کارهای آینده باید به این محدودیتها بپردازند. MED-RLVR، مبتنی بر یادگیری تقویتی با پاداشهای قابلتأیید، با SFT در وظایف درونتوزیعی برابری میکند و تعمیمپذیری برونتوزیعی را بهبود میبخشد. در حالی که استدلال پزشکی بدون نظارت صریح پدیدار میشود، چالشهایی مانند هک پاداش همچنان پابرجا هستند، که نیاز به کاوش بیشتر در مورد استدلال پیچیده و ادغام چندوجهی را برجسته میکند.