اعتبار تصویر: VentureBeat با Imagen 3
اعتبار تصویر: VentureBeat با Imagen 3

کمتر، بیشتر است: دانشگاه برکلی و گوگل پتانسیل LLM را از طریق نمونه‌برداری ساده باز می‌کنند

یک مقاله جدید توسط محققان تحقیقات گوگل و دانشگاه کالیفرنیا، برکلی نشان می‌دهد که یک رویکرد مقیاس‌بندی زمان آزمایش به‌طور شگفت‌انگیزی ساده می‌تواند توانایی‌های استدلال مدل‌های زبانی بزرگ (LLM) را افزایش دهد. نکته کلیدی؟ افزایش مقیاس جستجوی مبتنی بر نمونه‌برداری، تکنیکی که متکی بر تولید پاسخ‌های متعدد و استفاده از خود مدل برای تأیید آن‌ها است.

یافته اصلی این است که حتی یک پیاده‌سازی مینیمالیستی از جستجوی مبتنی بر نمونه‌برداری، با استفاده از نمونه‌برداری تصادفی و خود-تأیید، می‌تواند عملکرد استدلال مدل‌هایی مانند Gemini 1.5 Pro را فراتر از o1-Preview در بنچمارک‌های محبوب ارتقا دهد. این یافته‌ها می‌تواند پیامدهای مهمی برای کاربردهای سازمانی داشته باشد و این فرض را به چالش بکشد که آموزش بسیار تخصصی یا معماری‌های پیچیده همیشه برای دستیابی به عملکرد سطح بالا ضروری هستند.

محدودیت‌های مقیاس‌بندی محاسباتی زمان آزمایش فعلی

روش محبوب فعلی برای مقیاس‌بندی زمان آزمایش در LLMها، آموزش مدل از طریق یادگیری تقویتی برای تولید پاسخ‌های طولانی‌تر با ردیابی زنجیره فکر (CoT) است. این رویکرد در مدل‌هایی مانند OpenAI o1 و DeepSeek-R1 استفاده می‌شود. در حالی که این روش‌ها مفید هستند، معمولاً نیاز به سرمایه‌گذاری قابل توجهی در مرحله آموزش دارند.

یکی دیگر از روش‌های مقیاس‌بندی زمان آزمایش، "خود-سازگاری" است، جایی که مدل پاسخ‌های متعددی را به پرسش تولید می‌کند و پاسخی را انتخاب می‌کند که بیشتر تکرار شده باشد. خود-سازگاری در برخورد با مسائل پیچیده به محدودیت‌های خود می‌رسد، زیرا در این موارد، پاسخ تکراری لزوماً پاسخ صحیح نیست.

جستجوی مبتنی بر نمونه‌برداری یک جایگزین ساده‌تر و بسیار مقیاس‌پذیر برای مقیاس‌بندی زمان آزمایش ارائه می‌دهد: اجازه دهید مدل پاسخ‌های متعددی را تولید کند و بهترین پاسخ را از طریق یک مکانیسم تأیید انتخاب کند. جستجوی مبتنی بر نمونه‌برداری می‌تواند مکمل سایر استراتژی‌های مقیاس‌بندی محاسباتی زمان آزمایش باشد و همانطور که محققان در مقاله خود می‌نویسند، "همچنین این مزیت منحصربه‌فرد را دارد که به‌طور شرم‌آوری موازی است و امکان مقیاس‌بندی دلخواه را فراهم می‌کند: به سادگی پاسخ‌های بیشتری را نمونه‌برداری کنید."

مهم‌تر از آن، جستجوی مبتنی بر نمونه‌برداری می‌تواند برای هر LLM، از جمله مواردی که به‌طور صریح برای استدلال آموزش ندیده‌اند، اعمال شود.

جستجوی مبتنی بر نمونه‌برداری چگونه کار می‌کند

محققان بر روی یک پیاده‌سازی مینیمالیستی از جستجوی مبتنی بر نمونه‌برداری تمرکز می‌کنند، با استفاده از یک مدل زبانی برای تولید پاسخ‌های کاندید و تأیید آن‌ها. این یک فرآیند "خود-تأیید" است، جایی که مدل خروجی‌های خود را بدون تکیه بر پاسخ‌های واقعی خارجی یا سیستم‌های تأیید نمادین ارزیابی می‌کند.

نمونه‌برداری مبتنی بر جستجو
<em>اعتبار: VentureBeat</em>

این الگوریتم در چند مرحله ساده کار می‌کند:

۱- الگوریتم با تولید مجموعه‌ای از راه حل‌های کاندید برای مسئله داده شده با استفاده از یک مدل زبانی شروع می‌کند. این کار با دادن یک اعلان یکسان به مدل چندین بار و استفاده از یک تنظیم دمای غیر صفر برای ایجاد مجموعه‌ای متنوع از پاسخ‌ها انجام می‌شود.

۲- پاسخ هر کاندید تحت یک فرآیند تأیید قرار می‌گیرد که در آن از LLM چندین بار خواسته می‌شود تا تعیین کند که آیا پاسخ صحیح است یا خیر. سپس نتایج تأیید میانگین می‌شوند تا یک امتیاز تأیید نهایی برای پاسخ ایجاد شود.

۳- الگوریتم بالاترین امتیاز را به عنوان پاسخ نهایی انتخاب می‌کند. اگر چندین کاندید در محدوده نزدیکی از یکدیگر قرار داشته باشند، از LLM خواسته می‌شود تا آن‌ها را به صورت جفتی مقایسه کند و بهترین گزینه را انتخاب کند. پاسخی که بیشترین مقایسه‌های جفتی را برنده شود، به عنوان پاسخ نهایی انتخاب می‌شود.

محققان دو محور کلیدی را برای مقیاس‌بندی زمان آزمایش در نظر گرفتند:

نمونه‌برداری: تعداد پاسخ‌هایی که مدل برای هر مسئله ورودی تولید می‌کند.

تأیید: تعداد امتیازهای تأییدی که برای هر راه حل تولید شده محاسبه می‌شود.

جستجوی مبتنی بر نمونه‌برداری چگونه با سایر تکنیک‌ها مقایسه می‌شود

این مطالعه نشان داد که عملکرد استدلال با جستجوی مبتنی بر نمونه‌برداری به بهبود خود ادامه می‌دهد، حتی زمانی که محاسبات زمان آزمایش بسیار فراتر از نقطه‌ای که خود-سازگاری اشباع می‌شود، مقیاس‌بندی شود.

در مقیاس کافی، این پیاده‌سازی مینیمالیستی به‌طور قابل توجهی دقت استدلال را در بنچمارک‌های استدلال مانند AIME و MATH افزایش می‌دهد. به عنوان مثال، عملکرد Gemini 1.5 Pro از o1-Preview، که به‌طور صریح بر روی مسائل استدلال آموزش دیده است، فراتر رفت و Gemini 1.5 Flash از Gemini 1.5 Pro پیشی گرفت.

محققان می‌نویسند: "این نه تنها اهمیت جستجوی مبتنی بر نمونه‌برداری را برای مقیاس‌بندی قابلیت‌ها برجسته می‌کند، بلکه سودمندی جستجوی مبتنی بر نمونه‌برداری را به عنوان یک مبنای ساده برای مقایسه سایر استراتژی‌های مقیاس‌بندی محاسباتی زمان آزمایش و اندازه‌گیری پیشرفت‌های واقعی در قابلیت‌های جستجوی مدل‌ها نشان می‌دهد."

شایان ذکر است که در حالی که نتایج نمونه‌برداری مبتنی بر جستجو چشمگیر است، هزینه‌ها نیز می‌تواند بازدارنده باشد. به عنوان مثال، با 200 نمونه و 50 مرحله تأیید در هر نمونه، یک پرسش از AIME حدود 130 میلیون توکن تولید می‌کند که با Gemini 1.5 Pro 650 دلار هزینه دارد. با این حال، این یک رویکرد بسیار مینیمالیستی برای جستجوی مبتنی بر نمونه‌برداری است و با تکنیک‌های بهینه‌سازی پیشنهادی در سایر مطالعات سازگار است. با روش‌های نمونه‌برداری و تأیید هوشمندتر، هزینه‌های استنتاج را می‌توان با استفاده از مدل‌های کوچک‌تر و تولید توکن‌های کمتر به‌طور قابل توجهی کاهش داد. به عنوان مثال، با استفاده از Gemini 1.5 Flash برای انجام تأیید، هزینه‌ها به 12 دلار در هر سوال کاهش می‌یابد.

استراتژی‌های خود-تأیید مؤثر

بحثی مداوم در مورد اینکه آیا LLMها می‌توانند پاسخ‌های خود را تأیید کنند یا خیر وجود دارد. محققان دو استراتژی کلیدی را برای بهبود خود-تأیید با استفاده از محاسبات زمان آزمایش شناسایی کردند:

مقایسه مستقیم کاندیدهای پاسخ: اختلافات بین راه حل‌های کاندید به‌شدت نشان‌دهنده خطاهای احتمالی است. با ارائه چندین پاسخ به مقایسه کننده، مدل می‌تواند اشتباهات و توهمات را بهتر شناسایی کند و به یک ضعف اصلی LLMها رسیدگی کند. محققان این را نمونه‌ای از "مقیاس‌بندی ضمنی" توصیف می‌کنند.

بازنویسی خاص وظیفه: محققان پیشنهاد می‌کنند که سبک خروجی بهینه یک LLM به وظیفه بستگی دارد. زنجیره فکر برای حل وظایف استدلال مؤثر است، اما تأیید پاسخ‌ها زمانی آسان‌تر است که به سبکی رسمی‌تر و از نظر ریاضیاتی متعارف نوشته شوند. تأییدکننده‌ها می‌توانند پاسخ‌های کاندید را قبل از ارزیابی به یک فرمت ساختاریافته‌تر (به عنوان مثال، قضیه-لم-اثبات) بازنویسی کنند.

محققان می‌نویسند: "ما پیش‌بینی می‌کنیم که قابلیت‌های خود-تأیید مدل در کوتاه‌مدت به سرعت بهبود یابد، زیرا مدل‌ها یاد می‌گیرند که از اصول مقیاس‌بندی ضمنی و مناسب بودن سبک خروجی استفاده کنند و نرخ‌های مقیاس‌بندی بهبودیافته را برای جستجوی مبتنی بر نمونه‌برداری هدایت کنند."

پیامدهای کاربردهای دنیای واقعی

این مطالعه نشان می‌دهد که یک تکنیک نسبتاً ساده می‌تواند به نتایج چشمگیری دست یابد و به‌طور بالقوه نیاز به معماری‌ها یا رژیم‌های آموزشی پیچیده و پرهزینه را کاهش دهد.

این نیز یک تکنیک مقیاس‌پذیر است که شرکت‌ها را قادر می‌سازد تا با تخصیص منابع محاسباتی بیشتر برای نمونه‌برداری و تأیید، عملکرد را افزایش دهند. همچنین توسعه‌دهندگان را قادر می‌سازد تا مدل‌های زبانی مرزی را فراتر از محدودیت‌های خود در وظایف پیچیده سوق دهند.

محققان می‌نویسند: "با توجه به اینکه مکمل سایر استراتژی‌های مقیاس‌بندی محاسباتی زمان آزمایش است، موازی است و امکان مقیاس‌بندی دلخواه را فراهم می‌کند و پیاده‌سازی‌های ساده‌ای را می‌پذیرد که به‌طور قابل اثباتی مؤثر هستند، ما انتظار داریم که جستجوی مبتنی بر نمونه‌برداری نقش مهمی را ایفا کند، زیرا مدل‌های زبانی وظیفه حل مسائل به‌طور فزاینده پیچیده با بودجه محاسباتی به‌طور فزاینده بزرگ را بر عهده دارند."