یک مقاله جدید توسط محققان تحقیقات گوگل و دانشگاه کالیفرنیا، برکلی نشان میدهد که یک رویکرد مقیاسبندی زمان آزمایش بهطور شگفتانگیزی ساده میتواند تواناییهای استدلال مدلهای زبانی بزرگ (LLM) را افزایش دهد. نکته کلیدی؟ افزایش مقیاس جستجوی مبتنی بر نمونهبرداری، تکنیکی که متکی بر تولید پاسخهای متعدد و استفاده از خود مدل برای تأیید آنها است.
یافته اصلی این است که حتی یک پیادهسازی مینیمالیستی از جستجوی مبتنی بر نمونهبرداری، با استفاده از نمونهبرداری تصادفی و خود-تأیید، میتواند عملکرد استدلال مدلهایی مانند Gemini 1.5 Pro را فراتر از o1-Preview در بنچمارکهای محبوب ارتقا دهد. این یافتهها میتواند پیامدهای مهمی برای کاربردهای سازمانی داشته باشد و این فرض را به چالش بکشد که آموزش بسیار تخصصی یا معماریهای پیچیده همیشه برای دستیابی به عملکرد سطح بالا ضروری هستند.
محدودیتهای مقیاسبندی محاسباتی زمان آزمایش فعلی
روش محبوب فعلی برای مقیاسبندی زمان آزمایش در LLMها، آموزش مدل از طریق یادگیری تقویتی برای تولید پاسخهای طولانیتر با ردیابی زنجیره فکر (CoT) است. این رویکرد در مدلهایی مانند OpenAI o1 و DeepSeek-R1 استفاده میشود. در حالی که این روشها مفید هستند، معمولاً نیاز به سرمایهگذاری قابل توجهی در مرحله آموزش دارند.
یکی دیگر از روشهای مقیاسبندی زمان آزمایش، "خود-سازگاری" است، جایی که مدل پاسخهای متعددی را به پرسش تولید میکند و پاسخی را انتخاب میکند که بیشتر تکرار شده باشد. خود-سازگاری در برخورد با مسائل پیچیده به محدودیتهای خود میرسد، زیرا در این موارد، پاسخ تکراری لزوماً پاسخ صحیح نیست.
جستجوی مبتنی بر نمونهبرداری یک جایگزین سادهتر و بسیار مقیاسپذیر برای مقیاسبندی زمان آزمایش ارائه میدهد: اجازه دهید مدل پاسخهای متعددی را تولید کند و بهترین پاسخ را از طریق یک مکانیسم تأیید انتخاب کند. جستجوی مبتنی بر نمونهبرداری میتواند مکمل سایر استراتژیهای مقیاسبندی محاسباتی زمان آزمایش باشد و همانطور که محققان در مقاله خود مینویسند، "همچنین این مزیت منحصربهفرد را دارد که بهطور شرمآوری موازی است و امکان مقیاسبندی دلخواه را فراهم میکند: به سادگی پاسخهای بیشتری را نمونهبرداری کنید."
مهمتر از آن، جستجوی مبتنی بر نمونهبرداری میتواند برای هر LLM، از جمله مواردی که بهطور صریح برای استدلال آموزش ندیدهاند، اعمال شود.
جستجوی مبتنی بر نمونهبرداری چگونه کار میکند
محققان بر روی یک پیادهسازی مینیمالیستی از جستجوی مبتنی بر نمونهبرداری تمرکز میکنند، با استفاده از یک مدل زبانی برای تولید پاسخهای کاندید و تأیید آنها. این یک فرآیند "خود-تأیید" است، جایی که مدل خروجیهای خود را بدون تکیه بر پاسخهای واقعی خارجی یا سیستمهای تأیید نمادین ارزیابی میکند.
این الگوریتم در چند مرحله ساده کار میکند:
۱- الگوریتم با تولید مجموعهای از راه حلهای کاندید برای مسئله داده شده با استفاده از یک مدل زبانی شروع میکند. این کار با دادن یک اعلان یکسان به مدل چندین بار و استفاده از یک تنظیم دمای غیر صفر برای ایجاد مجموعهای متنوع از پاسخها انجام میشود.
۲- پاسخ هر کاندید تحت یک فرآیند تأیید قرار میگیرد که در آن از LLM چندین بار خواسته میشود تا تعیین کند که آیا پاسخ صحیح است یا خیر. سپس نتایج تأیید میانگین میشوند تا یک امتیاز تأیید نهایی برای پاسخ ایجاد شود.
۳- الگوریتم بالاترین امتیاز را به عنوان پاسخ نهایی انتخاب میکند. اگر چندین کاندید در محدوده نزدیکی از یکدیگر قرار داشته باشند، از LLM خواسته میشود تا آنها را به صورت جفتی مقایسه کند و بهترین گزینه را انتخاب کند. پاسخی که بیشترین مقایسههای جفتی را برنده شود، به عنوان پاسخ نهایی انتخاب میشود.
محققان دو محور کلیدی را برای مقیاسبندی زمان آزمایش در نظر گرفتند:
نمونهبرداری: تعداد پاسخهایی که مدل برای هر مسئله ورودی تولید میکند.
تأیید: تعداد امتیازهای تأییدی که برای هر راه حل تولید شده محاسبه میشود.
جستجوی مبتنی بر نمونهبرداری چگونه با سایر تکنیکها مقایسه میشود
این مطالعه نشان داد که عملکرد استدلال با جستجوی مبتنی بر نمونهبرداری به بهبود خود ادامه میدهد، حتی زمانی که محاسبات زمان آزمایش بسیار فراتر از نقطهای که خود-سازگاری اشباع میشود، مقیاسبندی شود.
در مقیاس کافی، این پیادهسازی مینیمالیستی بهطور قابل توجهی دقت استدلال را در بنچمارکهای استدلال مانند AIME و MATH افزایش میدهد. به عنوان مثال، عملکرد Gemini 1.5 Pro از o1-Preview، که بهطور صریح بر روی مسائل استدلال آموزش دیده است، فراتر رفت و Gemini 1.5 Flash از Gemini 1.5 Pro پیشی گرفت.
محققان مینویسند: "این نه تنها اهمیت جستجوی مبتنی بر نمونهبرداری را برای مقیاسبندی قابلیتها برجسته میکند، بلکه سودمندی جستجوی مبتنی بر نمونهبرداری را به عنوان یک مبنای ساده برای مقایسه سایر استراتژیهای مقیاسبندی محاسباتی زمان آزمایش و اندازهگیری پیشرفتهای واقعی در قابلیتهای جستجوی مدلها نشان میدهد."
شایان ذکر است که در حالی که نتایج نمونهبرداری مبتنی بر جستجو چشمگیر است، هزینهها نیز میتواند بازدارنده باشد. به عنوان مثال، با 200 نمونه و 50 مرحله تأیید در هر نمونه، یک پرسش از AIME حدود 130 میلیون توکن تولید میکند که با Gemini 1.5 Pro 650 دلار هزینه دارد. با این حال، این یک رویکرد بسیار مینیمالیستی برای جستجوی مبتنی بر نمونهبرداری است و با تکنیکهای بهینهسازی پیشنهادی در سایر مطالعات سازگار است. با روشهای نمونهبرداری و تأیید هوشمندتر، هزینههای استنتاج را میتوان با استفاده از مدلهای کوچکتر و تولید توکنهای کمتر بهطور قابل توجهی کاهش داد. به عنوان مثال، با استفاده از Gemini 1.5 Flash برای انجام تأیید، هزینهها به 12 دلار در هر سوال کاهش مییابد.
استراتژیهای خود-تأیید مؤثر
بحثی مداوم در مورد اینکه آیا LLMها میتوانند پاسخهای خود را تأیید کنند یا خیر وجود دارد. محققان دو استراتژی کلیدی را برای بهبود خود-تأیید با استفاده از محاسبات زمان آزمایش شناسایی کردند:
مقایسه مستقیم کاندیدهای پاسخ: اختلافات بین راه حلهای کاندید بهشدت نشاندهنده خطاهای احتمالی است. با ارائه چندین پاسخ به مقایسه کننده، مدل میتواند اشتباهات و توهمات را بهتر شناسایی کند و به یک ضعف اصلی LLMها رسیدگی کند. محققان این را نمونهای از "مقیاسبندی ضمنی" توصیف میکنند.
بازنویسی خاص وظیفه: محققان پیشنهاد میکنند که سبک خروجی بهینه یک LLM به وظیفه بستگی دارد. زنجیره فکر برای حل وظایف استدلال مؤثر است، اما تأیید پاسخها زمانی آسانتر است که به سبکی رسمیتر و از نظر ریاضیاتی متعارف نوشته شوند. تأییدکنندهها میتوانند پاسخهای کاندید را قبل از ارزیابی به یک فرمت ساختاریافتهتر (به عنوان مثال، قضیه-لم-اثبات) بازنویسی کنند.
محققان مینویسند: "ما پیشبینی میکنیم که قابلیتهای خود-تأیید مدل در کوتاهمدت به سرعت بهبود یابد، زیرا مدلها یاد میگیرند که از اصول مقیاسبندی ضمنی و مناسب بودن سبک خروجی استفاده کنند و نرخهای مقیاسبندی بهبودیافته را برای جستجوی مبتنی بر نمونهبرداری هدایت کنند."
پیامدهای کاربردهای دنیای واقعی
این مطالعه نشان میدهد که یک تکنیک نسبتاً ساده میتواند به نتایج چشمگیری دست یابد و بهطور بالقوه نیاز به معماریها یا رژیمهای آموزشی پیچیده و پرهزینه را کاهش دهد.
این نیز یک تکنیک مقیاسپذیر است که شرکتها را قادر میسازد تا با تخصیص منابع محاسباتی بیشتر برای نمونهبرداری و تأیید، عملکرد را افزایش دهند. همچنین توسعهدهندگان را قادر میسازد تا مدلهای زبانی مرزی را فراتر از محدودیتهای خود در وظایف پیچیده سوق دهند.
محققان مینویسند: "با توجه به اینکه مکمل سایر استراتژیهای مقیاسبندی محاسباتی زمان آزمایش است، موازی است و امکان مقیاسبندی دلخواه را فراهم میکند و پیادهسازیهای سادهای را میپذیرد که بهطور قابل اثباتی مؤثر هستند، ما انتظار داریم که جستجوی مبتنی بر نمونهبرداری نقش مهمی را ایفا کند، زیرا مدلهای زبانی وظیفه حل مسائل بهطور فزاینده پیچیده با بودجه محاسباتی بهطور فزاینده بزرگ را بر عهده دارند."