مدل‌های کوچک، دستاوردهای استدلالی بزرگ: محققان USC تینا را برای یادگیری تقویتی مقرون‌به‌صرفه با LoRA معرفی می‌کنند

دستیابی به استدلال قوی و چند مرحله‌ای در مدل‌های زبانی (LM) با وجود پیشرفت‌های چشمگیر در عملکرد کلی وظایف، همچنان یک چالش بزرگ است. چنین استدلالی برای حوزه‌های پیچیده حل مسئله مانند تحقیقات علمی و برنامه‌ریزی استراتژیک بسیار حیاتی است. به طور سنتی، افزایش مهارت‌های استدلال شامل تنظیم دقیق نظارت‌شده (SFT) است، جایی که مدل‌ها با تقلید نمایش‌های استدلال گام به گام از مدل‌های پیشرفته‌تر مانند o1 یاد می‌گیرند. در حالی که این روش مؤثر است، به شدت به در دسترس بودن ردیابی‌های استدلال با کیفیت بالا بستگی دارد، که پرهزینه است و خطر ترویج تقلید سطحی را به جای اکتشاف منطقی واقعی به همراه دارد.

یادگیری تقویتی (RL) یک جایگزین ارائه می‌دهد و مدل‌ها را قادر می‌سازد تا مستقیماً از سیگنال‌های پاداش یاد بگیرند و اکتشاف استدلال گسترده‌تری را تشویق کنند. با این حال، رویکردهای RL اغلب از نظر منابع سنگین و پیچیده هستند و این سوال را مطرح می‌کنند که چگونه می‌توان مدل‌های توانمند در استدلال را به طور مقرون‌به‌صرفه ساخت.

تبلیغات پولی ایجاد پست فناوری مارک

محققان دانشگاه کالیفرنیای جنوبی (University of Southern California) تینا (Tina) را معرفی می‌کنند، خانواده‌ای از مدل‌های استدلالی فشرده که با حداقل هزینه به عملکرد قوی دست می‌یابند. مدل‌های تینا با استفاده از RL تقویت‌شده توسط LoRA بر روی یک مدل پایه 1.5 میلیارد پارامتری، از مدل‌های پیشرفته فعلی بهتر عمل می‌کنند یا با آنها مطابقت دارند، در حالی که کسری از هزینه‌های محاسباتی را متحمل می‌شوند. بهترین مدل آنها عملکرد استدلال را بیش از 20 درصد بهبود می‌بخشد و به دقت 43.33% Pass@1 در AIME24 دست می‌یابد، در حالی که هزینه پس از آموزش تنها 9 دلار است. تینا با بهره‌گیری از کارایی LoRA برای تطبیق قالب‌های استدلال و در عین حال حفظ دانش پایه، رویکردی بسیار در دسترس و مقرون‌به‌صرفه را برجسته می‌کند و تمام منابع به طور کامل منبع باز هستند.

تینا خانواده‌ای از مدل‌های استدلالی کوچک است که با پس‌آموزش مدل DeepSeek-R1-Distill-Qwen-1.5B با استفاده از LoRA در طول یادگیری تقویتی با رویکردی به سبک GRPO ساخته شده‌اند. این چارچوب بر مینیمالیسم تأکید دارد: مدل‌های کوچک، به‌روزرسانی‌های کوچک پارامتر و ردپای کم سخت‌افزار و بودجه. مدل‌های تینا با استفاده از مجموعه‌داده‌های عمومی و تنظیمات تکراری از مدل‌هایی مانند STILL-3، DeepScaleR و Open-RS آموزش داده شدند. آموزش از پایگاه کد OpenR1، تنظیم حداقل ابرپارامتر و تنها دو GPU NVIDIA L40S، گهگاه GPUهای RTX 6000 Ada استفاده کرد. هزینه‌های آموزش و ارزیابی پایین بود و به طور متوسط ​​به خوبی زیر بودجه 100 دلار در هر آزمایش بود و تینا را به یک پلتفرم بسیار در دسترس برای تحقیقات استدلال تبدیل کرد.

برای اطمینان از مقایسه‌های منصفانه، نویسندگان مدل‌های استدلال مبنا را با استفاده از یک تنظیمات ثابت با چارچوب LightEval و موتور vLLM دوباره ارزیابی کردند، بنابراین تغییرات ناشی از مطالعات قبلی را حذف کردند. شش معیار استدلال، از جمله AIME 24/25، AMC 23، MATH 500، GPQA و Minerva مورد استفاده قرار گرفتند. سپس آنها مدل‌های تینا - نسخه‌های کوچک و آموزش‌دیده LoRA از مدل‌های مبنا - را ارزیابی کردند و نشان دادند که مدل‌های تینا اغلب علیرغم استفاده از حداقل آموزش (19-57٪ از یک دوره)، از همتایان تمام پارامتری خود بهتر عمل می‌کنند. مطالعات بیشتر نشان داد که مجموعه‌داده‌های کوچکتر و با کیفیت بالا، نرخ‌های یادگیری مناسب، رتبه‌های متوسط ​​LoRA و انتخاب دقیق الگوریتم RL به طور قابل توجهی بر عملکرد تأثیر می‌گذارند و کارایی و استحکام رویکرد استدلالی مبتنی بر LoRA آنها را تأیید می‌کنند.

نمودار عملکرد مدل

در خاتمه، تینا، مجموعه‌ای از مدل‌های استدلالی سبک‌وزن است که با استفاده از حداقل منابع محاسباتی به عملکرد قوی دست می‌یابند. با استفاده از LoRA در طول RL بر روی یک مدل پایه 1.5 میلیارد پارامتری، آنها به توانایی‌های استدلالی رقابتی با مدل‌های بزرگتر و پیشرفته فعلی با هزینه پس از آموزش تنها 9 دلار دست می‌یابند. مدل‌های تینا بیش از 20 درصد بهبود در استدلال و دقت 43.33% Pass@1 در AIME24 را نشان می‌دهند. در حالی که کارایی چشمگیر هزینه-عملکرد را به نمایش می‌گذارند، محدودیت‌ها همچنان باقی است، از جمله مقیاس مدل کوچکتر، تنوع محدود در وظایف استدلال و تنظیم حداقل ابرپارامتر. تمام کد، گزارش‌ها و نقاط بازرسی مدل برای ترویج تحقیقات در دسترس و اکتشاف بیشتر منبع باز هستند.


مقاله کاغذ و صفحه GitHub را بررسی کنید. همچنین، فراموش نکنید که ما را در توییتر دنبال کنید و به کانال تلگرام و گروه لینکدین ما بپیوندید. فراموش نکنید که به 90k+ ML SubReddit ما بپیوندید.

[اکنون ثبت نام کنید] کنفرانس مجازی miniCON در مورد هوش مصنوعی AGENTIC: ثبت نام رایگان + گواهی حضور + رویداد کوتاه 4 ساعته (21 مه، 9 صبح تا 1 بعد از ظهر PST) + کارگاه عملی