نمودار نشان‌دهنده معماری مدل Open-RS و فرآیند آموزش با استفاده از GRPO.
نمودار نشان‌دهنده معماری مدل Open-RS و فرآیند آموزش با استفاده از GRPO.

این مقاله هوش مصنوعی Open-RS مبتنی بر GRPO را معرفی می‌کند: چارچوبی کم‌هزینه برای بهبود استنتاج در مدل‌های زبانی کوچک

یکی از تمرکزهای ویژه بر روی مدل‌های زبانی بزرگ (Large Language Models یا LLMs)، بهبود توانایی تفکر منطقی و مهارت‌های حل مسئله آن‌ها بوده است. یادگیری تقویتی (Reinforcement Learning یا RL) به طور فزاینده‌ای در این حوزه، هم برای مدل‌های عظیم و هم برای نسخه‌های کوچک‌تر که می‌توانند در محیط‌های محاسباتی محدود عملکرد خوبی داشته باشند، استفاده می‌شود. یکی از چالش‌های اصلی در این زمینه، بهبود قابلیت استنتاج یک مدل بدون اتکا به زیرساخت‌های بسیار بزرگ یا زمان آموزش بیش از حد است. مدل‌های پیشرو به سخت‌افزار گران‌قیمت و خطوط لوله داده اختصاصی نیاز دارند که آن‌ها را از دسترس آزمایشگاه‌ها یا شرکت‌های کوچک‌تر خارج می‌کند. این موضوع این سؤال را مطرح می‌کند که آیا می‌توان مدل‌های کوچک‌تر را با استفاده از رویکردهای مقرون‌به‌صرفه بهبود بخشید و به عملکردی قابل مقایسه با همتایان بزرگ‌ترشان در وظایف چالش‌برانگیز مانند استنتاج ریاضی دست یافت؟

روش‌های متعددی برای پرداختن به این موضوع بررسی شده‌اند. روش «زنجیره تفکر» (Chain-of-thought prompting) به هدایت مدل‌ها در مراحل حل مسئله کمک می‌کند. الگوریتم‌های جستجو مانند جستجوی پرتوئی (Beam Search) و جستجوی درخت مونت کارلو (Monte Carlo Tree Search) نیز برای بهبود جریان منطقی پاسخ‌ها استفاده می‌شوند. خود یادگیری تقویتی در تنظیمات متعددی آزمایش شده است. با این حال، بسیاری از این رویکردها همچنان با همان مشکلات محدود هستند: به مجموعه داده‌های عظیم وابسته هستند یا منجر به عملکرد ناپایدار در تنظیمات مقیاس کوچک می‌شوند. علاوه بر این، نتایج اغلب با نتایج مدل‌های اختصاصی مانند o1-preview متعلق به OpenAI مطابقت ندارند.

تحقیقی که توسط تیمی از آزمایشگاه مهندسی Knovel در سنگاپور و دانشگاه علوم VNU در ویتنام معرفی شده، بر غلبه بر این مشکلات تمرکز دارد. محققان از یک مدل ۱.۵ میلیارد پارامتری به نام DeepSeek-R1-Distill-Qwen-1.5B استفاده کردند. آن‌ها الگوریتم بهینه‌سازی خط‌مشی نسبی گروهی (Group Relative Policy Optimization یا GRPO) را برای تنظیمات خود به کار گرفتند و مدل را با استفاده از چهار پردازنده گرافیکی NVIDIA A40 با ۴۸ گیگابایت VRAM هر کدام، همگی در محدوده زمانی سختگیرانه ۲۴ ساعته، آموزش دادند. هدف اصلی آن‌ها افزایش استنتاج مدل بدون سرمایه‌گذاری مالی یا محاسباتی بزرگ بود. آموزش آن‌ها تنها ۴۲ دلار هزینه محاسباتی مصرف کرد، که کاهش چشمگیری در مقایسه با خطوط پایه که هزاران دلار نیاز دارند، محسوب می‌شود.

جدول نتایج تجربی مدل Open-RS در معیارهای مختلف
جدول مقایسه عملکرد مدل Open-RS آموزش‌دیده با GRPO در برابر سایر مدل‌ها بر روی مجموعه داده‌های ارزیابی استنتاج.

این تیم برای دستیابی به این هدف، مجموعه‌ای از ۳۹,۶۵۹ سؤال ویژه ریاضیات را با پالایش دو مجموعه داده موجود—open-s1 و open-deep scale—گردآوری کرد. فرآیند فیلتر کردن شامل حذف سؤالات پیش پا افتاده یا دارای نویز با استفاده از مدل‌های مختلفی مانند Qwen2.5-7B-Instruct و DeepSeek-R1-Distill-Qwen-1.5B بود. سیستم پاداش مبتنی بر قوانین بود و بر سه مؤلفه تمرکز داشت: صحت پاسخ‌ها (با استفاده از نمادگذاری جعبه‌ای)، قالب‌بندی ساختاری (اعمال شده با تگ‌ها)، و طول خروجی (که با یک تابع کسینوس برای ترویج استنتاج مختصر پاداش داده می‌شد). الگوریتم GRPO برای نمونه‌برداری از پاسخ‌های گروهی و اعمال بهینه‌سازی مبتنی بر امتیاز استفاده شد، که نیاز به یک مدل منتقد (critical model) را از بین برد و در نتیجه تقاضای محاسباتی را بیشتر کاهش داد.

عملکرد این رویکرد در پنج مجموعه داده معیار آزمایش شد: AMC23، AIME24، MATH-500، OlympiadBench و Minerva. در یک آزمایش، با استفاده تنها از مجموعه داده open-s1، دقت مدل در AMC23 از ۶۳٪ به ۷۰٪ در ۱۰۰ گام جهانی اول بهبود یافت اما بعداً کاهش پیدا کرد. در آزمایش دیگری که ۷۰۰۰ نمونه با دشواری ترکیبی را ترکیب می‌کرد، دقت در AMC23 به ۸۰٪ افزایش یافت و در AIME24 به ۴۶.۷٪ رسید. مدلی به نام Open-RS2 که در آن تنظیمات آموزش دیده بود، همچنین امتیازات رقابتی در OlympiadBench (۵۲.۴٪) و MATH-500 (۸۵٪) نشان داد. در آزمایش نهایی، پاداش کسینوس به تنظیم طول خروجی در محدوده ۱۰۰۰ تا ۳۵۰۰ توکن کمک کرد و مدل دقت ۷۲.۵٪ در AMC23 و ۸۴.۴٪ در MATH-500 را حفظ کرد.

این تحقیق نشان داد که استنتاج مؤثر در مدل‌های زبانی کوچک حتی با منابع محدود قابل دستیابی است. مشکل آموزش مدل‌های کوچک بدون سرمایه‌گذاری قابل توجه در سخت‌افزار با یک استراتژی آموزش کم‌هزینه و کارآمد برطرف شد. روش پیشنهادی از یادگیری تقویتی و داده‌های گزینش‌شده برای ارائه نتایج شگفت‌آور قوی استفاده کرد. با بهبود مستمر در طراحی پاداش و پایداری بهینه‌سازی، مدل‌های کوچک ممکن است به زودی در وظایف استنتاج عملی با همتایان بزرگ‌تر خود رقابت کنند.

مقاله پژوهشی را در اینجا و صفحه گیت‌هاب را بررسی کنید. تمام اعتبار این تحقیق متعلق به پژوهشگران این پروژه است. همچنین، ما را در توییتر دنبال کنید و فراموش نکنید به ساب‌ردیت یادگیری ماشین با بیش از ۸۵ هزار عضو ما بپیوندید.

درباره نویسنده

نیکیل

نیکیل یک مشاور کارآموز در Marktechpost است. او در حال گذراندن دوره کارشناسی ارشد پیوسته در رشته مواد در مؤسسه فناوری هند، خاراگپور است. نیکیل علاقه‌مند به هوش مصنوعی/یادگیری ماشین است و همیشه در حال تحقیق در مورد کاربردهای آن در زمینه‌هایی مانند مواد زیستی و علوم زیست‌پزشکی است. با پیش‌زمینه قوی در علم مواد، او در حال کاوش پیشرفت‌های جدید و ایجاد فرصت‌هایی برای مشارکت است.