پیشبرد استدلال پزشکی با یادگیری تقویتی از پاداش‌های قابل‌تأیید (RLVR): بینش‌هایی از MED-RLVR

یادگیری تقویتی از پاداش‌های قابل‌تأیید (RLVR) اخیراً به‌عنوان روشی امیدوارکننده برای افزایش توانایی‌های استدلال در مدل‌های زبانی بدون نظارت مستقیم، ظهور کرده است. این رویکرد موفقیت قابل‌توجهی در ریاضیات و برنامه‌نویسی نشان داده است، جایی که استدلال به‌طور طبیعی با حل مسئله ساختاریافته همسو است. در حالی که مطالعات نشان داده‌اند که RLVR به‌تنهایی می‌تواند منجر به استدلال خودتکامل‌یافته شود، تحقیقات عمدتاً به این حوزه‌های فنی محدود بوده است. تلاش‌ها برای گسترش RLVR، مجموعه داده‌های مصنوعی مانند موارد مربوط به وظایف متوالی و شمارش اشیاء را بررسی کرده‌اند که پتانسیل این روش را نشان می‌دهد اما چالش‌های تطبیق آن با حوزه‌های مختلف را نیز برجسته می‌کند.

گسترش RLVR به حوزه‌های وسیع‌تر همچنان یک چالش باز است، به‌ویژه در وظایفی مانند پاسخ‌دهی به سؤالات چندگزینه‌ای (MCQA)، که برچسب‌های ساختاریافته و قابل‌تأییدی را در موضوعات متنوع، از جمله پزشکی، فراهم می‌کند. با این حال، برخلاف ریاضیات و برنامه‌نویسی که شامل استدلال پیچیده با فضای پاسخ باز هستند، وظایف MCQA معمولاً گزینه‌های پاسخ از پیش تعریف‌شده‌ای دارند، که باعث می‌شود نامشخص باشد آیا مزایای RLVR به طور مؤثری قابل انتقال است یا خیر. این محدودیت به‌ویژه در وظایف استدلال پزشکی مرتبط است، جایی که مدل‌ها باید دانش بالینی پیچیده را برای تولید پاسخ‌های دقیق پیمایش کنند؛ حوزه‌ای که برای سیستم‌های هوش مصنوعی موجود دشوار بوده است.

پژوهشگران مایکروسافت ریسرچ بررسی می‌کنند که آیا استدلال پزشکی می‌تواند از طریق RLVR پدیدار شود. آن‌ها MED-RLVR را معرفی می‌کنند که از داده‌های MCQA پزشکی برای ارزیابی اثربخشی RLVR در حوزه پزشکی بهره می‌برد. یافته‌های آن‌ها نشان می‌دهد که RLVR فراتر از ریاضیات و برنامه‌نویسی گسترش می‌یابد و به عملکردی قابل مقایسه با تنظیم دقیق نظارت‌شده (SFT) در وظایف درون‌توزیعی دست می‌یابد، در حالی که تعمیم‌پذیری برون‌توزیعی را به میزان قابل‌توجه هشت درصد بهبود می‌بخشد. با تحلیل پویایی آموزش، آن‌ها مشاهده می‌کنند که قابلیت‌های استدلال در یک مدل پایه ۳ میلیارد پارامتری بدون نظارت صریح پدیدار می‌شود، که پتانسیل RLVR را برای پیشبرد استدلال در زمینه‌های دانش‌محور مانند پزشکی برجسته می‌کند.

یادگیری تقویتی (RL) تصمیم‌گیری را با آموزش یک عامل برای به حداکثر رساندن پاداش‌ها از طریق تعامل با یک محیط بهینه می‌کند. این روش به طور مؤثری برای مدل‌های زبانی به منظور همسو کردن خروجی‌ها با ترجیحات انسانی و اخیراً برای استخراج استدلال بدون نظارت صریح به کار گرفته شده است. این مطالعه از بهینه‌سازی خط‌مشی پروگزیمال (PPO) برای آموزش مدل خط‌مشی استفاده می‌کند و یک تابع هدف محدود شده را برای پایدارسازی آموزش در بر می‌گیرد. با استفاده از یک تابع پاداش مبتنی بر قاعده، MED-RLVR پاداش‌ها را بر اساس صحت خروجی و اعتبار قالب تخصیص می‌دهد. بدون نظارت اضافی، مدل استدلال پزشکی نوظهوری را نشان می‌دهد، مشابه استدلال ریاضی در مطالعات قبلی RLVR، که پتانسیل RLVR را فراتر از حوزه‌های ساختاریافته برجسته می‌کند.

مجموعه داده MedQA-USMLE که شامل سؤالات چندگزینه‌ای امتحانات پزشکی است، برای آموزش MED-RLVR استفاده می‌شود. برخلاف نسخه استاندارد چهار گزینه‌ای، این مجموعه داده با ارائه گزینه‌های پاسخ بیشتر، چالش بزرگ‌تری را ایجاد می‌کند. آموزش بر اساس مدل Qwen2.5-3B با استفاده از OpenRLHF برای یادگیری تقویتی انجام می‌شود. در مقایسه با SFT، MED-RLVR تعمیم‌پذیری برتری را نشان می‌دهد، به‌ویژه در مجموعه داده MMLU-Pro-Health. تجزیه و تحلیل شش مرحله از تکامل استدلال را آشکار می‌کند: خطاهای قالب‌بندی، خروجی‌های پرحرف، هک پاداش، و استدلال بازترکیب‌شده. برخلاف وظایف ریاضی یا برنامه‌نویسی، هیچ رفتار خوداعتبارسنجی ("لحظات آها") مشاهده نشد، که نشان‌دهنده بهبودهای بالقوه از طریق جریمه کردن زنجیره‌های استدلال کوتاه یا تنظیم دقیق با زنجیره‌های تفکر (CoT) طولانی‌تر است.

در نتیجه، این مطالعه بر روی MCQA در پزشکی تمرکز دارد و یک محیط کنترل‌شده برای ارزیابی فراهم می‌کند. با این حال، MCQA به طور کامل پیچیدگی وظایف دنیای واقعی مانند پاسخ‌دهی به متن باز، تولید گزارش یا گفتگوهای پزشکی را در بر نمی‌گیرد. علاوه بر این، رویکرد تک‌وجهی، توانایی مدل را برای ادغام داده‌های چندوجهی که برای کاربردهای تشخیصی حیاتی است، محدود می‌کند. کارهای آینده باید به این محدودیت‌ها بپردازند. MED-RLVR، مبتنی بر یادگیری تقویتی با پاداش‌های قابل‌تأیید، با SFT در وظایف درون‌توزیعی برابری می‌کند و تعمیم‌پذیری برون‌توزیعی را بهبود می‌بخشد. در حالی که استدلال پزشکی بدون نظارت صریح پدیدار می‌شود، چالش‌هایی مانند هک پاداش همچنان پابرجا هستند، که نیاز به کاوش بیشتر در مورد استدلال پیچیده و ادغام چندوجهی را برجسته می‌کند.