ReTool: چارچوبی برای یادگیری تقویتی افزوده شده با ابزار برای بهینه‌سازی استدلال مدل‌های زبانی بزرگ با ابزارهای محاسباتی

یادگیری تقویتی (RL) یک تکنیک قدرتمند برای افزایش قابلیت‌های استدلال مدل‌های زبانی بزرگ (LLM) است که آن‌ها را قادر می‌سازد تا زنجیره تفکر (Chain-of-Thought یا CoT) طولانی را توسعه داده و اصلاح کنند. مدل‌هایی مانند OpenAI o1 و DeepSeek R1 عملکرد بسیار خوبی در وظایف استدلال مبتنی بر متن نشان داده‌اند، با این حال، آن‌ها با محدودیت‌هایی در وظایفی که نیاز به محاسبات عددی دقیق یا دستکاری‌های نمادین دارند، مانند استدلال هندسی، محاسبات پیچیده یا حل معادله، مواجه هستند. تحقیقات اخیر روش‌های تحریک (prompting) و تنظیم دقیق نظارت‌شده (supervised fine-tuning) را برای تجهیز LLMها به قابلیت‌های استفاده از ابزار بررسی کرده‌اند، اما آن‌ها به دلیل تکیه بر تقلید از توزیع داده‌های انتخاب‌شده، محدود شده‌اند. این اغلب منجر به تعمیم ضعیف فراتر از الگوهای دیده‌شده و ناتوانی در تعیین زمان و چگونگی فراخوانی ابزارهای خارجی می‌شود.

پیشرفت‌های اخیر در LLMها پیشرفت به سوی فراشناخت (metacognition) شبیه به انسان از طریق تحریک CoT را نشان می‌دهد. تحقیقات از مقیاس‌بندی در زمان آموزش به مقیاس‌بندی در زمان آزمایش تکامل یافته است و منابع محاسباتی اضافی را در طول استنتاج (inference) برای تولید مراحل استدلال میانی اختصاص می‌دهد. تکنیک‌هایی مانند بهینه‌سازی ترجیح گام به گام، جستجوی درخت مونت کارلو و RL، استدلال ریاضی چند مرحله‌ای را بهبود بخشیده‌اند، همانطور که توسط مدل‌هایی مانند OpenAI-o1 و DeepSeek-R1 مشهود است. علاوه بر CoT، استدلال برنامه تفکر (Program-of-Thought) ابزارهای محاسباتی خارجی مانند مفسرهای پایتون را برای ساده‌سازی مراحل استدلال پیچیده ادغام می‌کند. علاوه بر این، استدلال یکپارچه با ابزار در ابتدا برای کمک به LLMها در حل مسائل با محاسبات فشرده از طریق استراتژی‌های برنامه‌نویسی معرفی شد.

محققان ByteDance Seed چارچوب ReTool را پیشنهاد کرده‌اند، یک چارچوب RL مجهز به CI که برای رسیدگی به وظایف حل مسئله ریاضی طراحی شده است. این چارچوب با دو ویژگی کلیدی، استدلال طولانی‌مدت را با یادگیری یکپارچه با ابزار افزایش می‌دهد. اول، این امکان را فراهم می‌کند که اجرای کد بی‌درنگ به صورت پویا در فرآیندهای استدلال زبان طبیعی درآمیخته شود. دوم، یک تکنیک RL خودکار را پیاده‌سازی می‌کند که امکان گسترش سیاست‌ها با اجرای کد چند نوبتی بی‌درنگ را فراهم می‌کند و به مدل می‌آموزد که چه زمانی و چگونه ابزارها را بر اساس بازخورد نتیجه فراخوانی کند. ReTool از یک چارچوب آموزشی سیستماتیک استفاده می‌کند که با تولید داده‌های مصنوعی شروع سرد (cold-start) برای تولید ردیابی‌های استدلال طولانی‌مدت تقویت‌شده با کد برای تنظیم دقیق مدل‌های پایه آغاز می‌شود.

ReTool از دو مرحله اصلی تشکیل شده است: تنظیم دقیق نظارت‌شده شروع سرد و به دنبال آن RL با گسترش اجرای کد درهم‌تنیده. خط لوله‌ای که برای جمع‌آوری و انتخاب داده‌های با کیفیت بالا طراحی شده است، با جمع‌آوری داده‌های استدلال ریاضی با کیفیت بالا از منابع مختلف، از جمله مجموعه‌داده‌های متن‌باز مانند OpenThoughts آغاز می‌شود. یک رویکرد تأیید دوگانه که ترکیبی از انتخاب متخصص انسانی و ارزیابی Deepseek-R1 است، داده‌های نامعتبر را فیلتر می‌کند. از این پایه، داده‌های استدلال یکپارچه با کد به طور خودکار ساخته می‌شوند. چارچوب VeRL با PPO به عنوان روش RL برای آموزش استفاده می‌شود. حداکثر طول دنباله روی 16384 توکن تنظیم شده است، با اندازه مینی‌بچ 512 و ضریب KL برابر با 0.0، با استفاده از Qwen2.5-32B-Instruct به عنوان ستون فقرات اصلی.

ReTool به LLM این امکان را می‌دهد که در طول مرحله RL به طور انعطاف‌پذیر از مفسر کد استفاده کند، که منجر به بهبود عملکرد قابل توجهی می‌شود. ReTool (Qwen2.5-32B-Instruct) با تنها 400 مرحله آموزش، به دقت‌های 67.0% در AIME2024 و 49.3% در AIME2025 دست می‌یابد. این عملکرد از خط مبنای RL مبتنی بر متن (Qwen2.5-32B-Instruct) بهتر است، که با وجود استفاده از بیش از 1000 مرحله آموزش، به 40.0% و 36.7% در معیارهای مربوطه دست می‌یابد. علاوه بر این، در AIME2024، ReTool (Qwen2.5-32B-Instruct) از خط مبنای رقابتی s1-32B با 10.3% فراتر می‌رود. به طور مشابه، در AIME2025، 11.4% نسبت به o1-preview OpenAI افزایش می‌یابد. هنگامی که با یک ستون فقرات پیشرفته‌تر ترکیب شود، ReTool (DeepSeek-R1-Distill-Qwen-32B) عملکرد را با امتیازات 72.5% در AIME2024 و 54.3% در AIME2025 بیشتر بهبود می‌بخشد.

در نتیجه، محققان ReTool را معرفی کردند، یک چارچوب RL جدید که LLMها را قادر می‌سازد تا قابلیت‌های استدلال ریاضی خود را از طریق استفاده مؤثر از مفسر کد خود-بهبود بخشند. آزمایش‌ها روی AIME2024 و AIME2025 نشان می‌دهد که ReTool در مقایسه با رویکردهای RL مبتنی بر متن معمولی به دقت بالاتری دست می‌یابد و با مراحل آموزش بسیار کمتری همگرا می‌شود. ReTool از طریق انتخاب دقیق داده‌ها و یک خط لوله تخصصی استفاده از ابزار، مدل‌ها را قادر می‌سازد تا استراتژی‌های مداخله محاسباتی پیچیده را توسعه دهند و راه را برای استدلال افزوده شده با ابزار کارآمدتر و قدرتمندتر در LLMها هموار کنند. نتایج نشان می‌دهد که RL یکپارچه با ابزار نشان‌دهنده یک جهت امیدوارکننده برای پیشبرد قابلیت‌های استدلال ریاضی در LLMها برای وظایفی است که نیاز به محاسبات دقیق و دستکاری نمادین دارند.

مقاله را بررسی کنید. همچنین، فراموش نکنید که ما را در توییتر دنبال کنید و به کانال تلگرام و گروه لینکدین ما بپیوندید. فراموش نکنید که به 90 هزار+ زیرمجموعه ML ما بپیوندید.

[اکنون ثبت نام کنید] کنفرانس مجازی miniCON در مورد هوش مصنوعی فعال: ثبت نام رایگان + گواهی حضور + رویداد کوتاه 4 ساعته (21 مه، 9 صبح تا 1 بعد از ظهر PST) + کارگاه عملی

https://www.marktechpost.com/2025/04/20/retool-a-tool-augmented-reinforcement-learning-framework-for-optimizing-llm-reasoning-with-computational-tools/