دستیابی به استدلال قوی و چند مرحلهای در مدلهای زبانی (LM) با وجود پیشرفتهای چشمگیر در عملکرد کلی وظایف، همچنان یک چالش بزرگ است. چنین استدلالی برای حوزههای پیچیده حل مسئله مانند تحقیقات علمی و برنامهریزی استراتژیک بسیار حیاتی است. به طور سنتی، افزایش مهارتهای استدلال شامل تنظیم دقیق نظارتشده (SFT) است، جایی که مدلها با تقلید نمایشهای استدلال گام به گام از مدلهای پیشرفتهتر مانند o1 یاد میگیرند. در حالی که این روش مؤثر است، به شدت به در دسترس بودن ردیابیهای استدلال با کیفیت بالا بستگی دارد، که پرهزینه است و خطر ترویج تقلید سطحی را به جای اکتشاف منطقی واقعی به همراه دارد.
یادگیری تقویتی (RL) یک جایگزین ارائه میدهد و مدلها را قادر میسازد تا مستقیماً از سیگنالهای پاداش یاد بگیرند و اکتشاف استدلال گستردهتری را تشویق کنند. با این حال، رویکردهای RL اغلب از نظر منابع سنگین و پیچیده هستند و این سوال را مطرح میکنند که چگونه میتوان مدلهای توانمند در استدلال را به طور مقرونبهصرفه ساخت.
محققان دانشگاه کالیفرنیای جنوبی (University of Southern California) تینا (Tina) را معرفی میکنند، خانوادهای از مدلهای استدلالی فشرده که با حداقل هزینه به عملکرد قوی دست مییابند. مدلهای تینا با استفاده از RL تقویتشده توسط LoRA بر روی یک مدل پایه 1.5 میلیارد پارامتری، از مدلهای پیشرفته فعلی بهتر عمل میکنند یا با آنها مطابقت دارند، در حالی که کسری از هزینههای محاسباتی را متحمل میشوند. بهترین مدل آنها عملکرد استدلال را بیش از 20 درصد بهبود میبخشد و به دقت 43.33% Pass@1 در AIME24 دست مییابد، در حالی که هزینه پس از آموزش تنها 9 دلار است. تینا با بهرهگیری از کارایی LoRA برای تطبیق قالبهای استدلال و در عین حال حفظ دانش پایه، رویکردی بسیار در دسترس و مقرونبهصرفه را برجسته میکند و تمام منابع به طور کامل منبع باز هستند.
تینا خانوادهای از مدلهای استدلالی کوچک است که با پسآموزش مدل DeepSeek-R1-Distill-Qwen-1.5B با استفاده از LoRA در طول یادگیری تقویتی با رویکردی به سبک GRPO ساخته شدهاند. این چارچوب بر مینیمالیسم تأکید دارد: مدلهای کوچک، بهروزرسانیهای کوچک پارامتر و ردپای کم سختافزار و بودجه. مدلهای تینا با استفاده از مجموعهدادههای عمومی و تنظیمات تکراری از مدلهایی مانند STILL-3، DeepScaleR و Open-RS آموزش داده شدند. آموزش از پایگاه کد OpenR1، تنظیم حداقل ابرپارامتر و تنها دو GPU NVIDIA L40S، گهگاه GPUهای RTX 6000 Ada استفاده کرد. هزینههای آموزش و ارزیابی پایین بود و به طور متوسط به خوبی زیر بودجه 100 دلار در هر آزمایش بود و تینا را به یک پلتفرم بسیار در دسترس برای تحقیقات استدلال تبدیل کرد.
برای اطمینان از مقایسههای منصفانه، نویسندگان مدلهای استدلال مبنا را با استفاده از یک تنظیمات ثابت با چارچوب LightEval و موتور vLLM دوباره ارزیابی کردند، بنابراین تغییرات ناشی از مطالعات قبلی را حذف کردند. شش معیار استدلال، از جمله AIME 24/25، AMC 23، MATH 500، GPQA و Minerva مورد استفاده قرار گرفتند. سپس آنها مدلهای تینا - نسخههای کوچک و آموزشدیده LoRA از مدلهای مبنا - را ارزیابی کردند و نشان دادند که مدلهای تینا اغلب علیرغم استفاده از حداقل آموزش (19-57٪ از یک دوره)، از همتایان تمام پارامتری خود بهتر عمل میکنند. مطالعات بیشتر نشان داد که مجموعهدادههای کوچکتر و با کیفیت بالا، نرخهای یادگیری مناسب، رتبههای متوسط LoRA و انتخاب دقیق الگوریتم RL به طور قابل توجهی بر عملکرد تأثیر میگذارند و کارایی و استحکام رویکرد استدلالی مبتنی بر LoRA آنها را تأیید میکنند.
در خاتمه، تینا، مجموعهای از مدلهای استدلالی سبکوزن است که با استفاده از حداقل منابع محاسباتی به عملکرد قوی دست مییابند. با استفاده از LoRA در طول RL بر روی یک مدل پایه 1.5 میلیارد پارامتری، آنها به تواناییهای استدلالی رقابتی با مدلهای بزرگتر و پیشرفته فعلی با هزینه پس از آموزش تنها 9 دلار دست مییابند. مدلهای تینا بیش از 20 درصد بهبود در استدلال و دقت 43.33% Pass@1 در AIME24 را نشان میدهند. در حالی که کارایی چشمگیر هزینه-عملکرد را به نمایش میگذارند، محدودیتها همچنان باقی است، از جمله مقیاس مدل کوچکتر، تنوع محدود در وظایف استدلال و تنظیم حداقل ابرپارامتر. تمام کد، گزارشها و نقاط بازرسی مدل برای ترویج تحقیقات در دسترس و اکتشاف بیشتر منبع باز هستند.