چگونه مقیاس‌بندی در زمان آزمایش، توانایی‌های استدلال پنهان را در مدل‌های زبانی کوچک باز می‌کند (و به آن‌ها اجازه می‌دهد تا از LLMها بهتر عمل کنند)

بر اساس یک مطالعه جدید توسط آزمایشگاه هوش مصنوعی شانگهای، مدل‌های زبانی بسیار کوچک (SLM) می‌توانند در وظایف استدلال از مدل‌های زبانی بزرگ (LLM) پیشرو بهتر عمل کنند. نویسندگان نشان می‌دهند که با ابزار مناسب و تکنیک‌های مقیاس‌بندی در زمان آزمایش، یک SLM با 1 میلیارد پارامتر می‌تواند در معیارهای ریاضی پیچیده از یک LLM با 405 میلیارد پارامتر بهتر عمل کند.

توانایی استقرار SLMها در وظایف استدلال پیچیده می‌تواند بسیار مفید باشد، زیرا شرکت‌ها به دنبال راه‌های جدیدی برای استفاده از این مدل‌های جدید در محیط‌ها و برنامه‌های مختلف هستند.

روش‌های مختلف مقیاس‌بندی در زمان آزمایش (منبع: arXiv)

مقیاس‌بندی در زمان آزمایش توضیح داده شد

مقیاس‌بندی در زمان آزمایش (TTS) فرآیند دادن چرخه‌های محاسباتی اضافی به LLMها در طول استنتاج برای بهبود عملکرد آن‌ها در وظایف مختلف است. مدل‌های استدلال پیشرو، مانند OpenAI o1 و DeepSeek-R1، از "TTS داخلی" استفاده می‌کنند، به این معنی که آن‌ها آموزش داده شده‌اند تا با تولید یک رشته طولانی از توکن‌های زنجیره فکر (CoT) به آرامی "فکر" کنند.

یک رویکرد جایگزین "TTS خارجی" است، جایی که عملکرد مدل با کمک خارجی (همانطور که از نامش پیداست) بهبود می‌یابد. TTS خارجی برای تغییر کاربری مدل‌های خروجی برای وظایف استدلال بدون تنظیم دقیق بیشتر مناسب است. یک تنظیم TTS خارجی معمولاً از یک "مدل سیاست" تشکیل شده است که LLM اصلی است که پاسخ را تولید می‌کند، و یک مدل پاداش فرآیند (PRM) که پاسخ‌های مدل سیاست را ارزیابی می‌کند. این دو مؤلفه از طریق یک روش نمونه‌برداری یا جستجو به هم متصل می‌شوند.

ساده‌ترین تنظیم "بهترین از N" است، جایی که مدل سیاست چندین پاسخ تولید می‌کند و PRM یک یا چند بهترین پاسخ را برای ایجاد پاسخ نهایی انتخاب می‌کند. روش‌های TTS خارجی پیشرفته‌تر از جستجو استفاده می‌کنند. در "جستجوی پرتو"، مدل پاسخ را به چند مرحله تقسیم می‌کند.

برای هر مرحله، چندین پاسخ را نمونه‌برداری می‌کند و آن‌ها را از طریق PRM اجرا می‌کند. سپس یک یا چند نامزد مناسب را انتخاب می‌کند و مرحله بعدی پاسخ را تولید می‌کند. و در "جستجوی درخت تأییدکننده متنوع" (DVTS)، مدل چندین شاخه پاسخ را تولید می‌کند تا مجموعه متنوع‌تری از پاسخ‌های نامزد را قبل از ترکیب آن‌ها در یک پاسخ نهایی ایجاد کند.

استراتژی مقیاس‌بندی مناسب چیست؟

انتخاب استراتژی TTS مناسب به عوامل متعددی بستگی دارد. نویسندگان مطالعه یک بررسی سیستماتیک از نحوه تأثیر مدل‌های سیاست و PRM مختلف بر کارایی روش‌های TTS انجام دادند.

یافته‌های آن‌ها نشان می‌دهد که کارایی تا حد زیادی به مدل‌های سیاست و PRM بستگی دارد. به عنوان مثال، برای مدل‌های سیاست کوچک، روش‌های مبتنی بر جستجو از بهترین از N بهتر عمل می‌کنند. با این حال، برای مدل‌های سیاست بزرگ، بهترین از N موثرتر است زیرا مدل‌ها توانایی‌های استدلال بهتری دارند و نیازی به مدل پاداش برای تأیید هر مرحله از استدلال خود ندارند.

یافته‌های آن‌ها همچنین نشان می‌دهد که استراتژی TTS مناسب به دشواری مسئله بستگی دارد. به عنوان مثال، برای مدل‌های سیاست کوچک با کمتر از 7 میلیارد پارامتر، بهترین از N برای مسائل آسان بهتر عمل می‌کند، در حالی که جستجوی پرتو برای مسائل سخت‌تر بهتر عمل می‌کند. برای مدل‌های سیاستی که بین 7 میلیارد و 32 میلیارد پارامتر دارند، جستجوی درخت متنوع برای مسائل آسان و متوسط عملکرد خوبی دارد و جستجوی پرتو برای مسائل سخت بهترین عملکرد را دارد. اما برای مدل‌های سیاست بزرگ (72 میلیارد پارامتر و بیشتر)، بهترین از N روش بهینه برای تمام سطوح دشواری است.

SLMها در MATH و AIME-24 از مدل‌های بزرگ بهتر عمل می‌کنند (منبع: arXiv)

چرا مدل‌های کوچک می‌توانند مدل‌های بزرگ را شکست دهند

بر اساس این یافته‌ها، توسعه‌دهندگان می‌توانند استراتژی‌های TTS بهینه از نظر محاسباتی ایجاد کنند که مدل سیاست، PRM و دشواری مسئله را در نظر می‌گیرند تا از بودجه محاسباتی به بهترین شکل برای حل مسائل استدلال استفاده کنند.

به عنوان مثال، محققان دریافتند که یک مدل Llama-3.2-3B با استراتژی TTS بهینه از نظر محاسباتی، از Llama-3.1-405B در MATH-500 و AIME24، دو معیار ریاضی پیچیده، بهتر عمل می‌کند. این نشان می‌دهد که یک SLM می‌تواند با استفاده از استراتژی TTS بهینه از نظر محاسباتی، از مدلی که 135 برابر بزرگتر است، بهتر عمل کند.

در آزمایش‌های دیگر، آن‌ها دریافتند که یک مدل Qwen2.5 با 500 میلیون پارامتر می‌تواند با استراتژی TTS بهینه از نظر محاسباتی مناسب، از GPT-4o بهتر عمل کند. با استفاده از همان استراتژی، نسخه تقطیر شده 1.5B DeepSeek-R1 از o1-preview و o1-mini در MATH-500 و AIME24 بهتر عمل کرد.

هنگام در نظر گرفتن بودجه محاسباتی آموزش و استنتاج، یافته‌ها نشان می‌دهد که با استراتژی‌های مقیاس‌بندی بهینه از نظر محاسباتی، SLMها می‌توانند با 100-1000 برابر FLOPS کمتر از مدل‌های بزرگتر بهتر عمل کنند.

نتایج محققان نشان می‌دهد که TTS بهینه از نظر محاسباتی، قابلیت‌های استدلال مدل‌های زبانی را به طور قابل توجهی افزایش می‌دهد. با این حال، با بزرگتر شدن مدل سیاست، بهبود TTS به تدریج کاهش می‌یابد.

محققان می‌نویسند: «این نشان می‌دهد که اثربخشی TTS مستقیماً با توانایی استدلال مدل سیاست مرتبط است. به طور خاص، برای مدل‌هایی با توانایی‌های استدلال ضعیف، مقیاس‌بندی محاسبات زمان آزمایش منجر به بهبود قابل توجهی می‌شود، در حالی که برای مدل‌هایی با توانایی‌های استدلال قوی، سود محدود است.»

این مطالعه تأیید می‌کند که SLMها می‌توانند هنگام استفاده از روش‌های مقیاس‌بندی در زمان آزمایش بهینه از نظر محاسباتی، بهتر از مدل‌های بزرگتر عمل کنند. در حالی که این مطالعه بر معیارهای ریاضی متمرکز است، محققان قصد دارند مطالعه خود را به سایر وظایف استدلال مانند کدنویسی و شیمی گسترش دهند.

https://venturebeat.com/ai/how-test-time-scaling-unlocks-hidden-reasoning-abilities-in-small-language-models-and-allows-them-to-outperform-llms/