یکی از تمرکزهای ویژه بر روی مدلهای زبانی بزرگ (Large Language Models یا LLMs)، بهبود توانایی تفکر منطقی و مهارتهای حل مسئله آنها بوده است. یادگیری تقویتی (Reinforcement Learning یا RL) به طور فزایندهای در این حوزه، هم برای مدلهای عظیم و هم برای نسخههای کوچکتر که میتوانند در محیطهای محاسباتی محدود عملکرد خوبی داشته باشند، استفاده میشود. یکی از چالشهای اصلی در این زمینه، بهبود قابلیت استنتاج یک مدل بدون اتکا به زیرساختهای بسیار بزرگ یا زمان آموزش بیش از حد است. مدلهای پیشرو به سختافزار گرانقیمت و خطوط لوله داده اختصاصی نیاز دارند که آنها را از دسترس آزمایشگاهها یا شرکتهای کوچکتر خارج میکند. این موضوع این سؤال را مطرح میکند که آیا میتوان مدلهای کوچکتر را با استفاده از رویکردهای مقرونبهصرفه بهبود بخشید و به عملکردی قابل مقایسه با همتایان بزرگترشان در وظایف چالشبرانگیز مانند استنتاج ریاضی دست یافت؟
روشهای متعددی برای پرداختن به این موضوع بررسی شدهاند. روش «زنجیره تفکر» (Chain-of-thought prompting) به هدایت مدلها در مراحل حل مسئله کمک میکند. الگوریتمهای جستجو مانند جستجوی پرتوئی (Beam Search) و جستجوی درخت مونت کارلو (Monte Carlo Tree Search) نیز برای بهبود جریان منطقی پاسخها استفاده میشوند. خود یادگیری تقویتی در تنظیمات متعددی آزمایش شده است. با این حال، بسیاری از این رویکردها همچنان با همان مشکلات محدود هستند: به مجموعه دادههای عظیم وابسته هستند یا منجر به عملکرد ناپایدار در تنظیمات مقیاس کوچک میشوند. علاوه بر این، نتایج اغلب با نتایج مدلهای اختصاصی مانند o1-preview متعلق به OpenAI مطابقت ندارند.
تحقیقی که توسط تیمی از آزمایشگاه مهندسی Knovel در سنگاپور و دانشگاه علوم VNU در ویتنام معرفی شده، بر غلبه بر این مشکلات تمرکز دارد. محققان از یک مدل ۱.۵ میلیارد پارامتری به نام DeepSeek-R1-Distill-Qwen-1.5B استفاده کردند. آنها الگوریتم بهینهسازی خطمشی نسبی گروهی (Group Relative Policy Optimization یا GRPO) را برای تنظیمات خود به کار گرفتند و مدل را با استفاده از چهار پردازنده گرافیکی NVIDIA A40 با ۴۸ گیگابایت VRAM هر کدام، همگی در محدوده زمانی سختگیرانه ۲۴ ساعته، آموزش دادند. هدف اصلی آنها افزایش استنتاج مدل بدون سرمایهگذاری مالی یا محاسباتی بزرگ بود. آموزش آنها تنها ۴۲ دلار هزینه محاسباتی مصرف کرد، که کاهش چشمگیری در مقایسه با خطوط پایه که هزاران دلار نیاز دارند، محسوب میشود.
این تیم برای دستیابی به این هدف، مجموعهای از ۳۹,۶۵۹ سؤال ویژه ریاضیات را با پالایش دو مجموعه داده موجود—open-s1 و open-deep scale—گردآوری کرد. فرآیند فیلتر کردن شامل حذف سؤالات پیش پا افتاده یا دارای نویز با استفاده از مدلهای مختلفی مانند Qwen2.5-7B-Instruct و DeepSeek-R1-Distill-Qwen-1.5B بود. سیستم پاداش مبتنی بر قوانین بود و بر سه مؤلفه تمرکز داشت: صحت پاسخها (با استفاده از نمادگذاری جعبهای)، قالببندی ساختاری (اعمال شده با تگها)، و طول خروجی (که با یک تابع کسینوس برای ترویج استنتاج مختصر پاداش داده میشد). الگوریتم GRPO برای نمونهبرداری از پاسخهای گروهی و اعمال بهینهسازی مبتنی بر امتیاز استفاده شد، که نیاز به یک مدل منتقد (critical model) را از بین برد و در نتیجه تقاضای محاسباتی را بیشتر کاهش داد.
عملکرد این رویکرد در پنج مجموعه داده معیار آزمایش شد: AMC23، AIME24، MATH-500، OlympiadBench و Minerva. در یک آزمایش، با استفاده تنها از مجموعه داده open-s1، دقت مدل در AMC23 از ۶۳٪ به ۷۰٪ در ۱۰۰ گام جهانی اول بهبود یافت اما بعداً کاهش پیدا کرد. در آزمایش دیگری که ۷۰۰۰ نمونه با دشواری ترکیبی را ترکیب میکرد، دقت در AMC23 به ۸۰٪ افزایش یافت و در AIME24 به ۴۶.۷٪ رسید. مدلی به نام Open-RS2 که در آن تنظیمات آموزش دیده بود، همچنین امتیازات رقابتی در OlympiadBench (۵۲.۴٪) و MATH-500 (۸۵٪) نشان داد. در آزمایش نهایی، پاداش کسینوس به تنظیم طول خروجی در محدوده ۱۰۰۰ تا ۳۵۰۰ توکن کمک کرد و مدل دقت ۷۲.۵٪ در AMC23 و ۸۴.۴٪ در MATH-500 را حفظ کرد.
این تحقیق نشان داد که استنتاج مؤثر در مدلهای زبانی کوچک حتی با منابع محدود قابل دستیابی است. مشکل آموزش مدلهای کوچک بدون سرمایهگذاری قابل توجه در سختافزار با یک استراتژی آموزش کمهزینه و کارآمد برطرف شد. روش پیشنهادی از یادگیری تقویتی و دادههای گزینششده برای ارائه نتایج شگفتآور قوی استفاده کرد. با بهبود مستمر در طراحی پاداش و پایداری بهینهسازی، مدلهای کوچک ممکن است به زودی در وظایف استنتاج عملی با همتایان بزرگتر خود رقابت کنند.
مقاله پژوهشی را در اینجا و صفحه گیتهاب را بررسی کنید. تمام اعتبار این تحقیق متعلق به پژوهشگران این پروژه است. همچنین، ما را در توییتر دنبال کنید و فراموش نکنید به سابردیت یادگیری ماشین با بیش از ۸۵ هزار عضو ما بپیوندید.