بر اساس یک مطالعه جدید توسط آزمایشگاه هوش مصنوعی شانگهای، مدلهای زبانی بسیار کوچک (SLM) میتوانند در وظایف استدلال از مدلهای زبانی بزرگ (LLM) پیشرو بهتر عمل کنند. نویسندگان نشان میدهند که با ابزار مناسب و تکنیکهای مقیاسبندی در زمان آزمایش، یک SLM با 1 میلیارد پارامتر میتواند در معیارهای ریاضی پیچیده از یک LLM با 405 میلیارد پارامتر بهتر عمل کند.
توانایی استقرار SLMها در وظایف استدلال پیچیده میتواند بسیار مفید باشد، زیرا شرکتها به دنبال راههای جدیدی برای استفاده از این مدلهای جدید در محیطها و برنامههای مختلف هستند.
مقیاسبندی در زمان آزمایش توضیح داده شد
مقیاسبندی در زمان آزمایش (TTS) فرآیند دادن چرخههای محاسباتی اضافی به LLMها در طول استنتاج برای بهبود عملکرد آنها در وظایف مختلف است. مدلهای استدلال پیشرو، مانند OpenAI o1 و DeepSeek-R1، از "TTS داخلی" استفاده میکنند، به این معنی که آنها آموزش داده شدهاند تا با تولید یک رشته طولانی از توکنهای زنجیره فکر (CoT) به آرامی "فکر" کنند.
یک رویکرد جایگزین "TTS خارجی" است، جایی که عملکرد مدل با کمک خارجی (همانطور که از نامش پیداست) بهبود مییابد. TTS خارجی برای تغییر کاربری مدلهای خروجی برای وظایف استدلال بدون تنظیم دقیق بیشتر مناسب است. یک تنظیم TTS خارجی معمولاً از یک "مدل سیاست" تشکیل شده است که LLM اصلی است که پاسخ را تولید میکند، و یک مدل پاداش فرآیند (PRM) که پاسخهای مدل سیاست را ارزیابی میکند. این دو مؤلفه از طریق یک روش نمونهبرداری یا جستجو به هم متصل میشوند.
سادهترین تنظیم "بهترین از N" است، جایی که مدل سیاست چندین پاسخ تولید میکند و PRM یک یا چند بهترین پاسخ را برای ایجاد پاسخ نهایی انتخاب میکند. روشهای TTS خارجی پیشرفتهتر از جستجو استفاده میکنند. در "جستجوی پرتو"، مدل پاسخ را به چند مرحله تقسیم میکند.
برای هر مرحله، چندین پاسخ را نمونهبرداری میکند و آنها را از طریق PRM اجرا میکند. سپس یک یا چند نامزد مناسب را انتخاب میکند و مرحله بعدی پاسخ را تولید میکند. و در "جستجوی درخت تأییدکننده متنوع" (DVTS)، مدل چندین شاخه پاسخ را تولید میکند تا مجموعه متنوعتری از پاسخهای نامزد را قبل از ترکیب آنها در یک پاسخ نهایی ایجاد کند.
استراتژی مقیاسبندی مناسب چیست؟
انتخاب استراتژی TTS مناسب به عوامل متعددی بستگی دارد. نویسندگان مطالعه یک بررسی سیستماتیک از نحوه تأثیر مدلهای سیاست و PRM مختلف بر کارایی روشهای TTS انجام دادند.
یافتههای آنها نشان میدهد که کارایی تا حد زیادی به مدلهای سیاست و PRM بستگی دارد. به عنوان مثال، برای مدلهای سیاست کوچک، روشهای مبتنی بر جستجو از بهترین از N بهتر عمل میکنند. با این حال، برای مدلهای سیاست بزرگ، بهترین از N موثرتر است زیرا مدلها تواناییهای استدلال بهتری دارند و نیازی به مدل پاداش برای تأیید هر مرحله از استدلال خود ندارند.
یافتههای آنها همچنین نشان میدهد که استراتژی TTS مناسب به دشواری مسئله بستگی دارد. به عنوان مثال، برای مدلهای سیاست کوچک با کمتر از 7 میلیارد پارامتر، بهترین از N برای مسائل آسان بهتر عمل میکند، در حالی که جستجوی پرتو برای مسائل سختتر بهتر عمل میکند. برای مدلهای سیاستی که بین 7 میلیارد و 32 میلیارد پارامتر دارند، جستجوی درخت متنوع برای مسائل آسان و متوسط عملکرد خوبی دارد و جستجوی پرتو برای مسائل سخت بهترین عملکرد را دارد. اما برای مدلهای سیاست بزرگ (72 میلیارد پارامتر و بیشتر)، بهترین از N روش بهینه برای تمام سطوح دشواری است.
چرا مدلهای کوچک میتوانند مدلهای بزرگ را شکست دهند
بر اساس این یافتهها، توسعهدهندگان میتوانند استراتژیهای TTS بهینه از نظر محاسباتی ایجاد کنند که مدل سیاست، PRM و دشواری مسئله را در نظر میگیرند تا از بودجه محاسباتی به بهترین شکل برای حل مسائل استدلال استفاده کنند.
به عنوان مثال، محققان دریافتند که یک مدل Llama-3.2-3B با استراتژی TTS بهینه از نظر محاسباتی، از Llama-3.1-405B در MATH-500 و AIME24، دو معیار ریاضی پیچیده، بهتر عمل میکند. این نشان میدهد که یک SLM میتواند با استفاده از استراتژی TTS بهینه از نظر محاسباتی، از مدلی که 135 برابر بزرگتر است، بهتر عمل کند.
در آزمایشهای دیگر، آنها دریافتند که یک مدل Qwen2.5 با 500 میلیون پارامتر میتواند با استراتژی TTS بهینه از نظر محاسباتی مناسب، از GPT-4o بهتر عمل کند. با استفاده از همان استراتژی، نسخه تقطیر شده 1.5B DeepSeek-R1 از o1-preview و o1-mini در MATH-500 و AIME24 بهتر عمل کرد.
هنگام در نظر گرفتن بودجه محاسباتی آموزش و استنتاج، یافتهها نشان میدهد که با استراتژیهای مقیاسبندی بهینه از نظر محاسباتی، SLMها میتوانند با 100-1000 برابر FLOPS کمتر از مدلهای بزرگتر بهتر عمل کنند.
نتایج محققان نشان میدهد که TTS بهینه از نظر محاسباتی، قابلیتهای استدلال مدلهای زبانی را به طور قابل توجهی افزایش میدهد. با این حال، با بزرگتر شدن مدل سیاست، بهبود TTS به تدریج کاهش مییابد.
محققان مینویسند: «این نشان میدهد که اثربخشی TTS مستقیماً با توانایی استدلال مدل سیاست مرتبط است. به طور خاص، برای مدلهایی با تواناییهای استدلال ضعیف، مقیاسبندی محاسبات زمان آزمایش منجر به بهبود قابل توجهی میشود، در حالی که برای مدلهایی با تواناییهای استدلال قوی، سود محدود است.»
این مطالعه تأیید میکند که SLMها میتوانند هنگام استفاده از روشهای مقیاسبندی در زمان آزمایش بهینه از نظر محاسباتی، بهتر از مدلهای بزرگتر عمل کنند. در حالی که این مطالعه بر معیارهای ریاضی متمرکز است، محققان قصد دارند مطالعه خود را به سایر وظایف استدلال مانند کدنویسی و شیمی گسترش دهند.