مدلهای زبانی بزرگ (LLM) به دلیل توانایی خود در انجام وظایف استدلالی پیچیده، از چتباتها گرفته تا ابزارهای تولید کد، در حال برجسته شدن هستند. این مدلها به طور قابل توجهی از مقیاسبندی محاسبات خود در طول استنتاج بهره میبرند و اغلب با اختصاص منابع بیشتر به مسائل دشوار، دقت بالاتری تولید میکنند. با این حال، این رویکرد دارای معایب قابل توجهی است. زمان پردازش طولانیتر و هزینههای محاسباتی بالاتر، مقیاسبندی چنین راه حلهایی را در محیطهای واقعی که در آن پاسخگویی و مقرون به صرفه بودن بسیار مهم است، چالشبرانگیز میکند. با پیشرفت فناوری به سمت سیستمهای هوشمندتر، نیاز فزایندهای به بررسی این موضوع وجود دارد که چگونه LLMها میتوانند نه تنها هوشمندتر، بلکه کارآمدتر نیز باشند، به ویژه هنگامی که در موقعیتهای تکراری یا آشنا عمل میکنند.
یکی از بزرگترین ناکارآمدیها در استقرار فعلی LLM در طول حل پرسشها رخ میدهد. به طور معمول، هنگامی که یک کاربر سؤالی مطرح میکند، مدل آن را به طور همزمان با زمینه پسزمینه لازم پردازش میکند. این محاسبه در زمان آزمایش فرض میکند که زمینه و سؤال همیشه با هم میرسند. اما در سناریوهای واقعی، مانند پرسش و پاسخ سند یا اشکالزدایی کد، زمینه معمولاً پایدار است و میتوان قبل از پرسیدن یک سؤال خاص به آن دسترسی داشت. با این حال، مدل همه چیز را از ابتدا برای هر پرسش پردازش میکند، حتی اگر قبلاً زمینه را دیده باشد. این افزونگی منجر به افزایش هزینههای محاسباتی و تأخیر در پاسخ میشود، به ویژه در سناریوهایی که شامل چندین پرسش در یک زمینه واحد است.
برای مقابله با این ناکارآمدی، روشهای مختلفی توسعه یافتهاند. محاسبات متوالی و موازی در زمان آزمایش دو استراتژی اصلی هستند. رویکردهای متوالی مسیر استدلال مدل را گسترش میدهند و به آن اجازه میدهند تا احتمالات بیشتری را در نظر بگیرد، در حالی که رویکردهای موازی شامل نمونهبرداری از چندین خروجی به طور همزمان، معروف به pass@k است. تکنیکهایی مانند رمزگشایی حدسی با هدف کاهش تأخیر از طریق حدسهای اولیه هستند، اما سودمندی آنها محدود است، هنگامی که مدل هنوز باید از ابتدا فکر کند. در حالی که این روشها مفید هستند، نیاز به پردازش زمینه در کنار هر سؤال جدید را به طور مکرر از بین نمیبرند. آنها همچنین معمولاً به شرایط زمان آزمایش نیاز دارند که همیشه امکانپذیر نیستند، مانند دسترسی به یک پیشگو یا یک تأییدکننده ایدهآل.
محققان Letta و دانشگاه کالیفرنیا، برکلی، راهحلی جدید به نام محاسبه زمان خواب را معرفی کردند. این روش شامل استفاده از زمان بیکاری بین تعاملات کاربر برای افزایش بهرهوری است. به جای منتظر ماندن برای سؤال کاربر، مدل شروع به تجزیه و تحلیل زمینه از قبل میکند. این مدل پرسشهای احتمالی آینده را پیشبینی میکند و نسخه جدیدی از زمینه را با استنتاجهای مرتبط غنیشده میسازد. هنگامی که کاربر در نهایت سؤالی میپرسد، مدل میتواند به سادگی به این زمینه از پیش پردازششده مراجعه کند. از آنجا که بیشتر تفکر قبلاً انجام شده است، به تلاش محاسباتی کمتری برای تولید پاسخهای دقیق نیاز دارد. این رویکرد هنگامی که چندین سؤال به یک زمینه مشابه مربوط میشوند، حتی مؤثرتر میشود و امکان استنتاجهای مشترک و توزیع هزینه محاسباتی را فراهم میکند.
اجرای محاسبه زمان خواب متکی بر تجزیه اعلان سنتی به دو بخش است: یک زمینه ثابت و یک پرسش پویا. در طول پنجره زمان خواب، فقط زمینه برای تولید یک نسخه از پیش پردازششده استفاده میشود. این زمینه بهبودیافته، به نام c'، با استفاده از تکنیکهای محاسبه زمان آزمایش مانند زنجیرههای استدلال یا خلاصهسازی ساخته میشود. هنگامی که این نسخه غنیشده ذخیره شد، زمینه خام را در طول پرسشهای بیدرنگ جایگزین میکند. سپس پاسخهای نهایی با استفاده از منابع بسیار کمتری تولید میشوند. این سیستم نه تنها استدلال اضافی را به حداقل میرساند، بلکه راه را برای LLMهای فعالتر که میتوانند از قبل فکر کنند و بهتر آماده شوند، هموار میکند.
برای ارزیابی اثربخشی محاسبه زمان خواب، تیم تحقیق آن را با استفاده از دو معیار ویژه طراحیشده آزمایش کرد: Stateful GSM-Symbolic و Stateful AIME. هر دو مجموعه داده با تقسیم مجموعههای مسئله موجود به زمینهها و سؤالهای جداگانه به دست میآیند. در آزمایشهایی با استفاده از مدلهایی مانند GPT-4o و GPT-4o-mini، محققان کاهش ۵ برابری در محاسبه زمان آزمایش را برای سطوح دقت مشابه مشاهده کردند. به طور خاص، دقت تا ۱۳٪ برای مجموعه داده GSM-Symbolic P2 و تا ۱۸٪ در Stateful AIME هنگام مقیاسبندی محاسبه زمان خواب بهبود یافت. Multi-Query GSM-Symbolic، یک مجموعه داده جدید که برای این ارزیابی معرفی شده است، به نشان دادن اینکه هزینه هر پرسش میتواند با ضریب ۲.۵ کاهش یابد، زمانی که ۱۰ پرسش زمینه مشابهی را به اشتراک بگذارند، کمک کرد.
هنگامی که در برابر استراتژیهای محبوب مانند pass@k قرار گرفت، محاسبه زمان خواب به طور مداوم از آنها بهتر عمل کرد. بر خلاف pass@k، که دسترسی به یک ارزیاب کامل را فرض میکند، محاسبه زمان خواب در شرایط واقعیتری کار میکند. نتایج نشان میدهد که حتی در بودجههای کم محاسبه زمان آزمایش، محاسبه زمان خواب دقت قابل مقایسه یا بهتری را در حالی که توکنهای کمتری مصرف میکند، تولید میکند. به عنوان مثال، مدل GPT-4o-mini با استفاده از محاسبه زمان خواب به دقت بالاتری با کمتر از ۲۰۰ توکن زمان آزمایش در مقایسه با بیش از ۵۰۰ توکن مورد نیاز در خط پایه دست یافت. حتی زمانی که مدلهایی مانند Claude Sonnet 3.7 و DeepSeek R1 ارزیابی شدند، بهبودهای مشابهی مشاهده شد.
مقیاسبندی میزان محاسبات اختصاص داده شده به زمان خواب بیشتر نتایج را بهبود بخشید. با اجرای پنج نسل موازی در طول زمان خواب در وظایف پیچیده، محققان منحنی پارتو را بیشتر پیش بردند. با این حال، آنها بازده نزولی فراتر از این نقطه را متذکر شدند. نکته مهم این است که نتایج نشان داد که مدلهای قویتر که وظایف دشوارتری را انجام میدهند، از محاسبات زمان خواب اضافی بیشتر بهره میبرند. همچنین، مستهلک کردن محاسبات زمان خواب زمانی بسیار مقرون به صرفه شد که زمینهها به چندین پرسش مرتبط خدمت کردند. محققان با وزن دادن به توکنهای زمان آزمایش به عنوان ده برابر گرانتر از توکنهای زمان خواب، که با نسبتهای هزینه تأخیر صنعت همسو است، کاهش تا ۲.۵ برابر در میانگین هزینه در هر پرسش را تأیید کردند.
یکی دیگر از یافتههای جالب این بود که محاسبه زمان خواب زمانی بهترین کار را انجام داد که پرسشهای کاربر قابل پیشبینی بودند. محققان با استفاده از Llama2-70B، قابلیت پیشبینی هر پرسش را با توجه به زمینه آن امتیاز دادند و همبستگی قوی پیدا کردند: هرچه پرسش قابل پیشبینیتر باشد، مزیت بیشتر است. در مثالهایی که سؤال به طور منطقی از زمینه داده شده دنبال میشد، محاسبه زمان خواب سود بیشتری به همراه داشت. برعکس، پرسشهای کمتر قابل پیشبینی یا انتزاعی اثربخشی کاهشیافتهای را تجربه کردند، اگرچه آنها همچنان در مقایسه با روشهای سنتی فقط زمان آزمایش مزایایی را نشان دادند.
در مجموع، این تحقیق یک تکنیک هوشمند و مقیاسپذیر برای افزایش کارایی LLMها بدون به خطر انداختن دقت ارائه میکند. با بهرهگیری از زمان بیکاری در غیر این صورت، محاسبه زمان خواب بار روی سیستمهای بیدرنگ را کاهش میدهد، هزینههای عملیاتی را کاهش میدهد و زمان پاسخ را بهبود میبخشد. بهبودهای کمی واضح، مانند کاهش ۵ برابری در محاسبات، افزایش دقت ۱۳-۱۸٪ و کاهش تا ۲.۵ برابر در هزینه در هر پرسش، نشان میدهد که رویکردهای آیندهنگر مانند این میتواند نسل بعدی دستیاران هوشمند و آگاه به زمینه را شکل دهد.
چند نکته کلیدی از تحقیق به شرح زیر است:
- محاسبه زمان خواب به مدلها اجازه میدهد تا با استدلال در مورد زمینه قبل از رسیدن پرسش، پرسشها را پیشبینی کنند.
- دقت با مقیاسبندی محاسبه زمان خواب، ۱۳٪ در GSM-Symbolic و ۱۸٪ در مجموعههای داده AIME بهبود یافت.
- الزامات محاسبه زمان آزمایش تقریباً ۵ برابر برای سطوح عملکرد مشابه کاهش یافت.
- هنگام به اشتراک گذاشتن زمینه در بین ۱۰ پرسش مرتبط، میانگین هزینه پرسش با ضریب ۲.۵ کاهش یافت.
- در تنظیمات محاسبه موازی در بودجههای معادل، از استراتژی pass@k بهتر عمل کرد.
- در پرسشهای قابل پیشبینیتر، که از طریق امتیازدهی احتمال گزارش شناسایی میشوند، موثرتر است.
- بازده نزولی فراتر از پنج نسل موازی برای محاسبه زمان خواب مشاهده شد.