یادگیری تقویتی (RL) یک تکنیک قدرتمند برای افزایش قابلیتهای استدلال مدلهای زبانی بزرگ (LLM) است که آنها را قادر میسازد تا زنجیره تفکر (Chain-of-Thought یا CoT) طولانی را توسعه داده و اصلاح کنند. مدلهایی مانند OpenAI o1 و DeepSeek R1 عملکرد بسیار خوبی در وظایف استدلال مبتنی بر متن نشان دادهاند، با این حال، آنها با محدودیتهایی در وظایفی که نیاز به محاسبات عددی دقیق یا دستکاریهای نمادین دارند، مانند استدلال هندسی، محاسبات پیچیده یا حل معادله، مواجه هستند. تحقیقات اخیر روشهای تحریک (prompting) و تنظیم دقیق نظارتشده (supervised fine-tuning) را برای تجهیز LLMها به قابلیتهای استفاده از ابزار بررسی کردهاند، اما آنها به دلیل تکیه بر تقلید از توزیع دادههای انتخابشده، محدود شدهاند. این اغلب منجر به تعمیم ضعیف فراتر از الگوهای دیدهشده و ناتوانی در تعیین زمان و چگونگی فراخوانی ابزارهای خارجی میشود.
پیشرفتهای اخیر در LLMها پیشرفت به سوی فراشناخت (metacognition) شبیه به انسان از طریق تحریک CoT را نشان میدهد. تحقیقات از مقیاسبندی در زمان آموزش به مقیاسبندی در زمان آزمایش تکامل یافته است و منابع محاسباتی اضافی را در طول استنتاج (inference) برای تولید مراحل استدلال میانی اختصاص میدهد. تکنیکهایی مانند بهینهسازی ترجیح گام به گام، جستجوی درخت مونت کارلو و RL، استدلال ریاضی چند مرحلهای را بهبود بخشیدهاند، همانطور که توسط مدلهایی مانند OpenAI-o1 و DeepSeek-R1 مشهود است. علاوه بر CoT، استدلال برنامه تفکر (Program-of-Thought) ابزارهای محاسباتی خارجی مانند مفسرهای پایتون را برای سادهسازی مراحل استدلال پیچیده ادغام میکند. علاوه بر این، استدلال یکپارچه با ابزار در ابتدا برای کمک به LLMها در حل مسائل با محاسبات فشرده از طریق استراتژیهای برنامهنویسی معرفی شد.
محققان ByteDance Seed چارچوب ReTool را پیشنهاد کردهاند، یک چارچوب RL مجهز به CI که برای رسیدگی به وظایف حل مسئله ریاضی طراحی شده است. این چارچوب با دو ویژگی کلیدی، استدلال طولانیمدت را با یادگیری یکپارچه با ابزار افزایش میدهد. اول، این امکان را فراهم میکند که اجرای کد بیدرنگ به صورت پویا در فرآیندهای استدلال زبان طبیعی درآمیخته شود. دوم، یک تکنیک RL خودکار را پیادهسازی میکند که امکان گسترش سیاستها با اجرای کد چند نوبتی بیدرنگ را فراهم میکند و به مدل میآموزد که چه زمانی و چگونه ابزارها را بر اساس بازخورد نتیجه فراخوانی کند. ReTool از یک چارچوب آموزشی سیستماتیک استفاده میکند که با تولید دادههای مصنوعی شروع سرد (cold-start) برای تولید ردیابیهای استدلال طولانیمدت تقویتشده با کد برای تنظیم دقیق مدلهای پایه آغاز میشود.
ReTool از دو مرحله اصلی تشکیل شده است: تنظیم دقیق نظارتشده شروع سرد و به دنبال آن RL با گسترش اجرای کد درهمتنیده. خط لولهای که برای جمعآوری و انتخاب دادههای با کیفیت بالا طراحی شده است، با جمعآوری دادههای استدلال ریاضی با کیفیت بالا از منابع مختلف، از جمله مجموعهدادههای متنباز مانند OpenThoughts آغاز میشود. یک رویکرد تأیید دوگانه که ترکیبی از انتخاب متخصص انسانی و ارزیابی Deepseek-R1 است، دادههای نامعتبر را فیلتر میکند. از این پایه، دادههای استدلال یکپارچه با کد به طور خودکار ساخته میشوند. چارچوب VeRL با PPO به عنوان روش RL برای آموزش استفاده میشود. حداکثر طول دنباله روی 16384 توکن تنظیم شده است، با اندازه مینیبچ 512 و ضریب KL برابر با 0.0، با استفاده از Qwen2.5-32B-Instruct به عنوان ستون فقرات اصلی.
ReTool به LLM این امکان را میدهد که در طول مرحله RL به طور انعطافپذیر از مفسر کد استفاده کند، که منجر به بهبود عملکرد قابل توجهی میشود. ReTool (Qwen2.5-32B-Instruct) با تنها 400 مرحله آموزش، به دقتهای 67.0% در AIME2024 و 49.3% در AIME2025 دست مییابد. این عملکرد از خط مبنای RL مبتنی بر متن (Qwen2.5-32B-Instruct) بهتر است، که با وجود استفاده از بیش از 1000 مرحله آموزش، به 40.0% و 36.7% در معیارهای مربوطه دست مییابد. علاوه بر این، در AIME2024، ReTool (Qwen2.5-32B-Instruct) از خط مبنای رقابتی s1-32B با 10.3% فراتر میرود. به طور مشابه، در AIME2025، 11.4% نسبت به o1-preview OpenAI افزایش مییابد. هنگامی که با یک ستون فقرات پیشرفتهتر ترکیب شود، ReTool (DeepSeek-R1-Distill-Qwen-32B) عملکرد را با امتیازات 72.5% در AIME2024 و 54.3% در AIME2025 بیشتر بهبود میبخشد.
در نتیجه، محققان ReTool را معرفی کردند، یک چارچوب RL جدید که LLMها را قادر میسازد تا قابلیتهای استدلال ریاضی خود را از طریق استفاده مؤثر از مفسر کد خود-بهبود بخشند. آزمایشها روی AIME2024 و AIME2025 نشان میدهد که ReTool در مقایسه با رویکردهای RL مبتنی بر متن معمولی به دقت بالاتری دست مییابد و با مراحل آموزش بسیار کمتری همگرا میشود. ReTool از طریق انتخاب دقیق دادهها و یک خط لوله تخصصی استفاده از ابزار، مدلها را قادر میسازد تا استراتژیهای مداخله محاسباتی پیچیده را توسعه دهند و راه را برای استدلال افزوده شده با ابزار کارآمدتر و قدرتمندتر در LLMها هموار کنند. نتایج نشان میدهد که RL یکپارچه با ابزار نشاندهنده یک جهت امیدوارکننده برای پیشبرد قابلیتهای استدلال ریاضی در LLMها برای وظایفی است که نیاز به محاسبات دقیق و دستکاری نمادین دارند.
مقاله را بررسی کنید. همچنین، فراموش نکنید که ما را در توییتر دنبال کنید و به کانال تلگرام و گروه لینکدین ما بپیوندید. فراموش نکنید که به 90 هزار+ زیرمجموعه ML ما بپیوندید.
[اکنون ثبت نام کنید] کنفرانس مجازی miniCON در مورد هوش مصنوعی فعال: ثبت نام رایگان + گواهی حضور + رویداد کوتاه 4 ساعته (21 مه، 9 صبح تا 1 بعد از ظهر PST) + کارگاه عملی