آیا مدل‌های استدلال واقعاً به ترنسفورمرها نیاز دارند؟ محققان TogetherAI، کرنل، ژنو و پرینستون M1 را معرفی می‌کنند—هوش مصنوعی هیبریدی مبتنی بر مامبا که با عملکرد SOTA با سرعت استنتاج 3 برابر مطابقت دارد.

استدلال مؤثر برای حل مسائل پیچیده در زمینه‌هایی مانند ریاضیات و برنامه‌نویسی بسیار مهم است، و مدل‌های زبانی بزرگ (LLM) از طریق استدلال زنجیره‌ای طولانی پیشرفت‌های چشمگیری را نشان داده‌اند. با این حال، مدل‌های مبتنی بر ترنسفورمر با محدودیت‌هایی به دلیل پیچیدگی محاسباتی درجه دوم و الزامات حافظه خطی خود مواجه هستند، که پردازش کارآمد توالی‌های طولانی را چالش‌برانگیز می‌کند. در حالی که تکنیک‌هایی مانند استدلال زنجیره تفکر (CoT) و تخصیص محاسباتی تطبیقی ​​به افزایش عملکرد مدل کمک کرده‌اند، این روش‌ها نیز هزینه‌های محاسباتی را افزایش می‌دهند. علاوه بر این، تولید چندین خروجی و انتخاب بهترین آنها به عنوان راهی برای افزایش دقت استدلال مورد بررسی قرار گرفته است. با این حال، چنین روش‌هایی هنوز به معماری‌های مبتنی بر ترنسفورمر متکی هستند، که با مقیاس‌پذیری در وظایف دسته‌ای بزرگ و بافت طولانی مشکل دارند.

برای رفع این چالش‌ها، جایگزین‌هایی برای معماری ترنسفورمر مورد بررسی قرار گرفته‌اند، از جمله مدل‌های مبتنی بر RNN، مدل‌های فضای حالت (SSM) و مکانیسم‌های توجه خطی، که استفاده از حافظه کارآمدتر و استنتاج سریع‌تر را ارائه می‌دهند. مدل‌های ترکیبی که توجه به خود را با لایه‌های زیر درجه دوم ترکیب می‌کنند نیز برای بهبود مقیاس‌بندی زمان استنتاج توسعه یافته‌اند. علاوه بر این، تکنیک‌های تقطیر دانش، که قابلیت‌ها را از مدل‌های بزرگ به مدل‌های کوچکتر منتقل می‌کنند، در حفظ عملکرد استدلال و در عین حال کاهش اندازه مدل، نویدبخش بوده‌اند. تحقیقات در مورد تقطیر متقابل معماری، مانند انتقال دانش از ترنسفورمرها به RNNها یا SSMها، برای دستیابی به قابلیت‌های استدلال بالا در مدل‌های کوچکتر و کارآمدتر ادامه دارد.

محققان TogetherAI، دانشگاه کرنل، دانشگاه ژنو و دانشگاه پرینستون M1 را ارائه می‌کنند، یک مدل استدلال RNN خطی هیبریدی که بر اساس معماری مامبا ساخته شده است، که استنتاج کارآمد حافظه را افزایش می‌دهد. M1 از طریق ترکیبی از تقطیر، تنظیم دقیق نظارت شده و یادگیری تقویتی آموزش داده می‌شود. نتایج تجربی در بنچمارک‌های AIME و MATH نشان می‌دهد که M1 از مدل‌های RNN خطی قبلی بهتر عمل می‌کند و با عملکرد ترنسفورمرهای تقطیر شده DeepSeek R1 مطابقت دارد. علاوه بر این، M1 در مقایسه با ترنسفورمرهای هم اندازه، سرعت 3 برابری در استنتاج به دست می‌آورد و دقت استدلال را از طریق تکنیک‌هایی مانند خودسازگاری و تأیید افزایش می‌دهد، که آن را به مدلی قدرتمند برای استنتاج در مقیاس بزرگ تبدیل می‌کند.

مدل M1 از طریق یک فرآیند سه مرحله‌ای ساخته می‌شود: تقطیر، SFT و RL. ابتدا، یک مدل ترنسفورمر از پیش آموزش‌دیده در معماری مامبا تقطیر می‌شود، با رویکردی اصلاح‌شده برای طرح‌ریزی‌های خطی و پارامترهای اضافی برای عملکرد بهتر. در مرحله SFT، مدل بر روی مجموعه داده‌های مسئله ریاضی تنظیم دقیق می‌شود، ابتدا با مجموعه داده‌های عمومی و سپس با مجموعه داده‌های متمرکز بر استدلال از سری مدل R1. در نهایت، RL با استفاده از GRPO اعمال می‌شود، که توانایی استدلال مدل را با آموزش با تخمین‌های مزیت و تشویق تنوع در پاسخ‌های آن افزایش می‌دهد، در نتیجه عملکرد آن را بیشتر تقویت می‌کند.

این آزمایش از مدل‌های Llama3.2-3 B-Instruct به عنوان هدف برای تقطیر استفاده می‌کند، با لایه‌های مامبا که از یک حالت SSM با اندازه 16 استفاده می‌کنند. این ارزیابی شامل طیف وسیعی از بنچمارک‌های ریاضی، از جمله MATH500، AIME25 و Olympiad Bench است، که عملکرد مدل را بر اساس پوشش و دقت ارزیابی می‌کند. متریک pass@k برای پوشش استفاده می‌شود، که احتمال یک راه حل صحیح در بین نمونه‌های تولید شده را نشان می‌دهد. عملکرد مدل با عملکرد مدل‌های مختلف پیشرفته مقایسه می‌شود و نتایج رقابتی به دست می‌آید، به ویژه در وظایف استدلال. سرعت استنتاج و مقیاس‌بندی زمان آزمایش ارزیابی می‌شود، که کارایی M1 را در تولید دسته‌ای بزرگ و زمینه‌های توالی طولانی‌تر نشان می‌دهد.

عملکرد مدل M1
عملکرد مدل M1

در نتیجه، M1 یک مدل استدلال ترکیبی مبتنی بر معماری مامبا است که برای غلبه بر مسائل مقیاس‌پذیری در مدل‌های ترنسفورمر طراحی شده است. M1 با استفاده از تکنیک‌های تقطیر و تنظیم دقیق، به عملکردی قابل مقایسه با مدل‌های استدلال پیشرفته دست می‌یابد. این مدل استنتاجی بیش از 3 برابر سریع‌تر از مدل‌های ترنسفورمر با اندازه مشابه، به ویژه با اندازه‌های دسته‌ای بزرگ ارائه می‌دهد، که استراتژی‌های پرهزینه مانند خودسازگاری را امکان‌پذیرتر می‌کند. M1 از مدل‌های RNN خطی بهتر عمل می‌کند و با عملکرد Deepseek R1 در بنچمارک‌هایی مانند AIME و MATH مطابقت دارد. علاوه بر این، M1 دقت بالاتری را تحت بودجه‌های زمانی ثابت نشان می‌دهد، که آن را به یک جایگزین قوی و کارآمد برای معماری‌های مبتنی بر ترنسفورمر برای وظایف استدلال ریاضی تبدیل می‌کند.