مقاله هوش مصنوعی: معرفی QWEN 2.5-32B تقویت‌شده با یادگیری تقویتی: چارچوبی برای استدلال ساختاریافته LLM و دستکاری ابزار

مدل‌های استدلال بزرگ (LRM) قبل از رسیدن به یک راه حل، از یک فرایند فکری گام به گام و سنجیده استفاده می‌کنند، که آن‌ها را برای وظایف پیچیده‌ای که نیاز به دقت منطقی دارند، مناسب می‌سازد. برخلاف تکنیک‌های قبلی که متکی به استدلال زنجیره‌ای کوتاه بودند، LRMها مراحل تأیید میانی را ادغام می‌کنند و اطمینان حاصل می‌کنند که هر مرحله به طور معناداری به پاسخ نهایی کمک می‌کند. این رویکرد استدلال ساختاریافته به طور فزاینده‌ای حیاتی است زیرا سیستم‌های هوش مصنوعی مسائل پیچیده را در حوزه‌های مختلف حل می‌کنند.

یک چالش اساسی در توسعه چنین مدل‌هایی، آموزش مدل‌های زبان بزرگ (LLM) برای اجرای استدلال منطقی بدون تحمیل سربار محاسباتی قابل توجه است. یادگیری تقویتی (RL) به عنوان یک راه حل مناسب ظاهر شده است که به مدل‌ها اجازه می‌دهد تا توانایی‌های استدلال خود را از طریق آموزش تکراری اصلاح کنند. با این حال، رویکردهای سنتی RL به داده‌های حاشیه‌نویسی شده توسط انسان برای تعریف سیگنال‌های پاداش متکی هستند و مقیاس‌پذیری آن‌ها را محدود می‌کنند. اتکا به حاشیه‌نویسی دستی تنگناها را ایجاد می‌کند و کاربرد RL را در مجموعه‌داده‌های بزرگ محدود می‌کند. محققان استراتژی‌های پاداش جایگزینی را بررسی کرده‌اند که این وابستگی را دور می‌زند و از روش‌های خود نظارتی برای ارزیابی پاسخ‌های مدل در برابر مجموعه‌های مسئله از پیش تعریف‌شده استفاده می‌کنند.

یک تیم تحقیقاتی از دانشگاه رنمین چین، با همکاری آکادمی هوش مصنوعی پکن (BAAI) و DataCanvas Alaya NeW، یک چارچوب آموزشی مبتنی بر RL را برای بهبود توانایی‌های استدلال ساختاریافته LLMها معرفی کرد. مطالعه آن‌ها به طور سیستماتیک اثرات RL بر عملکرد استدلال را بررسی کرد و بر تکنیک‌هایی که درک و دقت مدل را افزایش می‌دهند، تمرکز داشت. محققان استدلال مدل را بدون تکیه بر نظارت گسترده انسانی با پیاده‌سازی مکانیسم‌های پاداش ساختاریافته مبتنی بر تأیید حل مسئله، بهینه کردند. رویکرد آن‌ها خروجی‌های مدل را اصلاح کرد و انسجام منطقی را در پاسخ‌های تولید شده تضمین کرد.

نمودار روش‌شناسی
نمودار روش‌شناسی

چارچوب‌های یادگیری موجود برای آموزش LLMها در درجه اول بر یادگیری تقویتی از بازخورد انسانی (RLHF) متمرکز هستند، که در آن مدل‌ها از طریق سیگنال‌های پاداش تولید شده توسط انسان یاد می‌گیرند. با وجود اثربخشی آن، RLHF چالش‌های مربوط به هزینه‌های حاشیه‌نویسی و محدودیت‌های مجموعه داده را ارائه می‌دهد. محققان مجموعه‌داده‌های قابل تأیید مانند مسائل ریاضی و چالش‌های کدنویسی را برای رفع این نگرانی‌ها وارد کرده‌اند. این مجموعه‌های مسئله به مدل‌ها اجازه می‌دهند تا بازخورد مستقیم بر اساس صحت راه حل‌های خود دریافت کنند و نیاز به مداخله انسانی را از بین ببرند. این مکانیسم ارزیابی خودکار، آموزش RL کارآمدتر را امکان‌پذیر کرده و امکان‌سنجی آن را برای توسعه هوش مصنوعی در مقیاس بزرگ گسترش داده است.

نمودار عملکرد 1
نمودار عملکرد ۱

روش‌شناسی شامل تکنیک‌های یادگیری تقویتی است که هم برای مدل‌های پایه و هم برای مدل‌های تنظیم‌شده اعمال می‌شود. محققان مدل‌ها را با استفاده از تکنیک‌های بهینه‌سازی سیاست و توابع پاداش ساختاریافته آموزش دادند. پالایش تولید پاسخ از طریق RL مدل‌ها را قادر ساخت تا توانایی‌های استدلال پیچیده، از جمله تأیید و خود بازتابی را توسعه دهند. محققان تکنیک‌های دستکاری ابزار را برای افزایش بیشتر عملکرد ادغام کردند و به مدل‌ها اجازه دادند تا به طور پویا با سیستم‌های خارجی برای حل مسئله تعامل داشته باشند. آزمایش‌های آن‌ها نشان داد که RL به طور موثری مدل‌ها را به سمت پاسخ‌های ساختاریافته‌تر هدایت می‌کند و دقت کلی و کارایی تصمیم‌گیری را بهبود می‌بخشد. فرآیند آموزش از مدل QWEN 2.5-32B استفاده کرد که با استفاده از ترکیبی از سیگنال‌های پاداش برای بهینه‌سازی عمق استدلال و کیفیت پاسخ، تنظیم شده بود. محققان همچنین پیکربندی‌های مختلف ابرپارامترهای RL را بررسی کردند و تأثیر اندازه‌های دسته‌ای، زمان‌های اجرای آزمایشی و استراتژی‌های یادگیری سیاست را بر عملکرد مدل آزمایش کردند. تنظیم این پارامترها از کارایی آموزش بهینه اطمینان حاصل کرد و در عین حال از بهره‌برداری از پاداش، یک چالش رایج در توسعه مدل مبتنی بر RL، جلوگیری کرد.

نمودار عملکرد 2
نمودار عملکرد ۲

ارزیابی‌های عملکرد، بهبودهای قابل توجهی را که از طریق آموزش مبتنی بر RL به دست آمده است، برجسته کرد. مدل QWEN 2.5-32B پس از گذراندن یادگیری تقویتی، توانایی‌های استدلال پیشرفته‌ای را با افزایش طول پاسخ و دقت آزمون بالاتر نشان داد. به طور خاص، این مدل به نرخ دقت 39.33٪ در مجموعه داده AIME 2024 دست یافت و عملکرد پایه خود را به طور قابل توجهی بهبود بخشید. در آزمایش‌های بیشتر، تکنیک‌های دستکاری ابزار گنجانده شد و منجر به دقت بالاتری حتی 86.67٪ هنگام استفاده از استراتژی جستجوی حریصانه شد. این نتایج بر اثربخشی RL در پالایش قابلیت‌های استدلال LLM تأکید می‌کند و پتانسیل آن را برای کاربرد در وظایف پیچیده حل مسئله برجسته می‌کند. توانایی مدل در پردازش مراحل استدلال گسترده قبل از رسیدن به یک پاسخ نهایی در دستیابی به این دستاوردهای عملکردی بسیار مهم بود. علاوه بر این، محققان مشاهده کردند که افزایش طول پاسخ به تنهایی لزوماً به عملکرد استدلال بهتر منجر نمی‌شود. در عوض، ساختاربندی مراحل استدلال میانی در آموزش RL منجر به بهبودهای معناداری در دقت منطقی شد.

این تحقیق نقش مهم یادگیری تقویتی در پیشبرد مدل‌های استدلال ساختاریافته را نشان می‌دهد. محققان با موفقیت توانایی LLMها را برای شرکت در استدلال عمیق و منطقی با ادغام تکنیک‌های آموزش RL افزایش دادند. این مطالعه به چالش‌های کلیدی در کارایی محاسباتی و مقیاس‌پذیری آموزش می‌پردازد و زمینه را برای پیشرفت‌های بیشتر در حل مسئله مبتنی بر هوش مصنوعی فراهم می‌کند. پالایش روش‌های RL و بررسی مکانیسم‌های پاداش اضافی برای بهینه‌سازی بیشتر قابلیت‌های استدلال LLMها حیاتی خواهد بود.


مقاله را بررسی کنید: مقاله. تمام اعتبار این تحقیق به محققان این پروژه می‌رسد.