استدلال مؤثر برای حل مسائل پیچیده در زمینههایی مانند ریاضیات و برنامهنویسی بسیار مهم است، و مدلهای زبانی بزرگ (LLM) از طریق استدلال زنجیرهای طولانی پیشرفتهای چشمگیری را نشان دادهاند. با این حال، مدلهای مبتنی بر ترنسفورمر با محدودیتهایی به دلیل پیچیدگی محاسباتی درجه دوم و الزامات حافظه خطی خود مواجه هستند، که پردازش کارآمد توالیهای طولانی را چالشبرانگیز میکند. در حالی که تکنیکهایی مانند استدلال زنجیره تفکر (CoT) و تخصیص محاسباتی تطبیقی به افزایش عملکرد مدل کمک کردهاند، این روشها نیز هزینههای محاسباتی را افزایش میدهند. علاوه بر این، تولید چندین خروجی و انتخاب بهترین آنها به عنوان راهی برای افزایش دقت استدلال مورد بررسی قرار گرفته است. با این حال، چنین روشهایی هنوز به معماریهای مبتنی بر ترنسفورمر متکی هستند، که با مقیاسپذیری در وظایف دستهای بزرگ و بافت طولانی مشکل دارند.
برای رفع این چالشها، جایگزینهایی برای معماری ترنسفورمر مورد بررسی قرار گرفتهاند، از جمله مدلهای مبتنی بر RNN، مدلهای فضای حالت (SSM) و مکانیسمهای توجه خطی، که استفاده از حافظه کارآمدتر و استنتاج سریعتر را ارائه میدهند. مدلهای ترکیبی که توجه به خود را با لایههای زیر درجه دوم ترکیب میکنند نیز برای بهبود مقیاسبندی زمان استنتاج توسعه یافتهاند. علاوه بر این، تکنیکهای تقطیر دانش، که قابلیتها را از مدلهای بزرگ به مدلهای کوچکتر منتقل میکنند، در حفظ عملکرد استدلال و در عین حال کاهش اندازه مدل، نویدبخش بودهاند. تحقیقات در مورد تقطیر متقابل معماری، مانند انتقال دانش از ترنسفورمرها به RNNها یا SSMها، برای دستیابی به قابلیتهای استدلال بالا در مدلهای کوچکتر و کارآمدتر ادامه دارد.
محققان TogetherAI، دانشگاه کرنل، دانشگاه ژنو و دانشگاه پرینستون M1 را ارائه میکنند، یک مدل استدلال RNN خطی هیبریدی که بر اساس معماری مامبا ساخته شده است، که استنتاج کارآمد حافظه را افزایش میدهد. M1 از طریق ترکیبی از تقطیر، تنظیم دقیق نظارت شده و یادگیری تقویتی آموزش داده میشود. نتایج تجربی در بنچمارکهای AIME و MATH نشان میدهد که M1 از مدلهای RNN خطی قبلی بهتر عمل میکند و با عملکرد ترنسفورمرهای تقطیر شده DeepSeek R1 مطابقت دارد. علاوه بر این، M1 در مقایسه با ترنسفورمرهای هم اندازه، سرعت 3 برابری در استنتاج به دست میآورد و دقت استدلال را از طریق تکنیکهایی مانند خودسازگاری و تأیید افزایش میدهد، که آن را به مدلی قدرتمند برای استنتاج در مقیاس بزرگ تبدیل میکند.
مدل M1 از طریق یک فرآیند سه مرحلهای ساخته میشود: تقطیر، SFT و RL. ابتدا، یک مدل ترنسفورمر از پیش آموزشدیده در معماری مامبا تقطیر میشود، با رویکردی اصلاحشده برای طرحریزیهای خطی و پارامترهای اضافی برای عملکرد بهتر. در مرحله SFT، مدل بر روی مجموعه دادههای مسئله ریاضی تنظیم دقیق میشود، ابتدا با مجموعه دادههای عمومی و سپس با مجموعه دادههای متمرکز بر استدلال از سری مدل R1. در نهایت، RL با استفاده از GRPO اعمال میشود، که توانایی استدلال مدل را با آموزش با تخمینهای مزیت و تشویق تنوع در پاسخهای آن افزایش میدهد، در نتیجه عملکرد آن را بیشتر تقویت میکند.
این آزمایش از مدلهای Llama3.2-3 B-Instruct به عنوان هدف برای تقطیر استفاده میکند، با لایههای مامبا که از یک حالت SSM با اندازه 16 استفاده میکنند. این ارزیابی شامل طیف وسیعی از بنچمارکهای ریاضی، از جمله MATH500، AIME25 و Olympiad Bench است، که عملکرد مدل را بر اساس پوشش و دقت ارزیابی میکند. متریک pass@k برای پوشش استفاده میشود، که احتمال یک راه حل صحیح در بین نمونههای تولید شده را نشان میدهد. عملکرد مدل با عملکرد مدلهای مختلف پیشرفته مقایسه میشود و نتایج رقابتی به دست میآید، به ویژه در وظایف استدلال. سرعت استنتاج و مقیاسبندی زمان آزمایش ارزیابی میشود، که کارایی M1 را در تولید دستهای بزرگ و زمینههای توالی طولانیتر نشان میدهد.
در نتیجه، M1 یک مدل استدلال ترکیبی مبتنی بر معماری مامبا است که برای غلبه بر مسائل مقیاسپذیری در مدلهای ترنسفورمر طراحی شده است. M1 با استفاده از تکنیکهای تقطیر و تنظیم دقیق، به عملکردی قابل مقایسه با مدلهای استدلال پیشرفته دست مییابد. این مدل استنتاجی بیش از 3 برابر سریعتر از مدلهای ترنسفورمر با اندازه مشابه، به ویژه با اندازههای دستهای بزرگ ارائه میدهد، که استراتژیهای پرهزینه مانند خودسازگاری را امکانپذیرتر میکند. M1 از مدلهای RNN خطی بهتر عمل میکند و با عملکرد Deepseek R1 در بنچمارکهایی مانند AIME و MATH مطابقت دارد. علاوه بر این، M1 دقت بالاتری را تحت بودجههای زمانی ثابت نشان میدهد، که آن را به یک جایگزین قوی و کارآمد برای معماریهای مبتنی بر ترنسفورمر برای وظایف استدلال ریاضی تبدیل میکند.