مدل‌های زبانی بزرگ (LLM) می‌توانند در حالت بیکاری فکر کنند: محققان «محاسبه زمان خواب» را معرفی می‌کنند

مدل‌های زبانی بزرگ (LLM) به دلیل توانایی خود در انجام وظایف استدلالی پیچیده، از چت‌بات‌ها گرفته تا ابزارهای تولید کد، در حال برجسته شدن هستند. این مدل‌ها به طور قابل توجهی از مقیاس‌بندی محاسبات خود در طول استنتاج بهره می‌برند و اغلب با اختصاص منابع بیشتر به مسائل دشوار، دقت بالاتری تولید می‌کنند. با این حال، این رویکرد دارای معایب قابل توجهی است. زمان پردازش طولانی‌تر و هزینه‌های محاسباتی بالاتر، مقیاس‌بندی چنین راه حل‌هایی را در محیط‌های واقعی که در آن پاسخگویی و مقرون به صرفه بودن بسیار مهم است، چالش‌برانگیز می‌کند. با پیشرفت فناوری به سمت سیستم‌های هوشمندتر، نیاز فزاینده‌ای به بررسی این موضوع وجود دارد که چگونه LLMها می‌توانند نه تنها هوشمندتر، بلکه کارآمدتر نیز باشند، به ویژه هنگامی که در موقعیت‌های تکراری یا آشنا عمل می‌کنند.

یکی از بزرگ‌ترین ناکارآمدی‌ها در استقرار فعلی LLM در طول حل پرسش‌ها رخ می‌دهد. به طور معمول، هنگامی که یک کاربر سؤالی مطرح می‌کند، مدل آن را به طور همزمان با زمینه پس‌زمینه لازم پردازش می‌کند. این محاسبه در زمان آزمایش فرض می‌کند که زمینه و سؤال همیشه با هم می‌رسند. اما در سناریوهای واقعی، مانند پرسش و پاسخ سند یا اشکال‌زدایی کد، زمینه معمولاً پایدار است و می‌توان قبل از پرسیدن یک سؤال خاص به آن دسترسی داشت. با این حال، مدل همه چیز را از ابتدا برای هر پرسش پردازش می‌کند، حتی اگر قبلاً زمینه را دیده باشد. این افزونگی منجر به افزایش هزینه‌های محاسباتی و تأخیر در پاسخ می‌شود، به ویژه در سناریوهایی که شامل چندین پرسش در یک زمینه واحد است.

برای مقابله با این ناکارآمدی، روش‌های مختلفی توسعه یافته‌اند. محاسبات متوالی و موازی در زمان آزمایش دو استراتژی اصلی هستند. رویکردهای متوالی مسیر استدلال مدل را گسترش می‌دهند و به آن اجازه می‌دهند تا احتمالات بیشتری را در نظر بگیرد، در حالی که رویکردهای موازی شامل نمونه‌برداری از چندین خروجی به طور همزمان، معروف به pass@k است. تکنیک‌هایی مانند رمزگشایی حدسی با هدف کاهش تأخیر از طریق حدس‌های اولیه هستند، اما سودمندی آن‌ها محدود است، هنگامی که مدل هنوز باید از ابتدا فکر کند. در حالی که این روش‌ها مفید هستند، نیاز به پردازش زمینه در کنار هر سؤال جدید را به طور مکرر از بین نمی‌برند. آن‌ها همچنین معمولاً به شرایط زمان آزمایش نیاز دارند که همیشه امکان‌پذیر نیستند، مانند دسترسی به یک پیشگو یا یک تأییدکننده ایده‌آل.

miniCON 2025
miniCON 2025

محققان Letta و دانشگاه کالیفرنیا، برکلی، راه‌حلی جدید به نام محاسبه زمان خواب را معرفی کردند. این روش شامل استفاده از زمان بیکاری بین تعاملات کاربر برای افزایش بهره‌وری است. به جای منتظر ماندن برای سؤال کاربر، مدل شروع به تجزیه و تحلیل زمینه از قبل می‌کند. این مدل پرسش‌های احتمالی آینده را پیش‌بینی می‌کند و نسخه جدیدی از زمینه را با استنتاج‌های مرتبط غنی‌شده می‌سازد. هنگامی که کاربر در نهایت سؤالی می‌پرسد، مدل می‌تواند به سادگی به این زمینه از پیش پردازش‌شده مراجعه کند. از آنجا که بیشتر تفکر قبلاً انجام شده است، به تلاش محاسباتی کمتری برای تولید پاسخ‌های دقیق نیاز دارد. این رویکرد هنگامی که چندین سؤال به یک زمینه مشابه مربوط می‌شوند، حتی مؤثرتر می‌شود و امکان استنتاج‌های مشترک و توزیع هزینه محاسباتی را فراهم می‌کند.

اجرای محاسبه زمان خواب متکی بر تجزیه اعلان سنتی به دو بخش است: یک زمینه ثابت و یک پرسش پویا. در طول پنجره زمان خواب، فقط زمینه برای تولید یک نسخه از پیش پردازش‌شده استفاده می‌شود. این زمینه بهبودیافته، به نام c'، با استفاده از تکنیک‌های محاسبه زمان آزمایش مانند زنجیره‌های استدلال یا خلاصه‌سازی ساخته می‌شود. هنگامی که این نسخه غنی‌شده ذخیره شد، زمینه خام را در طول پرسش‌های بی‌درنگ جایگزین می‌کند. سپس پاسخ‌های نهایی با استفاده از منابع بسیار کمتری تولید می‌شوند. این سیستم نه تنها استدلال اضافی را به حداقل می‌رساند، بلکه راه را برای LLMهای فعال‌تر که می‌توانند از قبل فکر کنند و بهتر آماده شوند، هموار می‌کند.

برای ارزیابی اثربخشی محاسبه زمان خواب، تیم تحقیق آن را با استفاده از دو معیار ویژه طراحی‌شده آزمایش کرد: Stateful GSM-Symbolic و Stateful AIME. هر دو مجموعه داده با تقسیم مجموعه‌های مسئله موجود به زمینه‌ها و سؤال‌های جداگانه به دست می‌آیند. در آزمایش‌هایی با استفاده از مدل‌هایی مانند GPT-4o و GPT-4o-mini، محققان کاهش ۵ برابری در محاسبه زمان آزمایش را برای سطوح دقت مشابه مشاهده کردند. به طور خاص، دقت تا ۱۳٪ برای مجموعه داده GSM-Symbolic P2 و تا ۱۸٪ در Stateful AIME هنگام مقیاس‌بندی محاسبه زمان خواب بهبود یافت. Multi-Query GSM-Symbolic، یک مجموعه داده جدید که برای این ارزیابی معرفی شده است، به نشان دادن اینکه هزینه هر پرسش می‌تواند با ضریب ۲.۵ کاهش یابد، زمانی که ۱۰ پرسش زمینه مشابهی را به اشتراک بگذارند، کمک کرد.

عملکرد محاسبه زمان خواب

هنگامی که در برابر استراتژی‌های محبوب مانند pass@k قرار گرفت، محاسبه زمان خواب به طور مداوم از آن‌ها بهتر عمل کرد. بر خلاف pass@k، که دسترسی به یک ارزیاب کامل را فرض می‌کند، محاسبه زمان خواب در شرایط واقعی‌تری کار می‌کند. نتایج نشان می‌دهد که حتی در بودجه‌های کم محاسبه زمان آزمایش، محاسبه زمان خواب دقت قابل مقایسه یا بهتری را در حالی که توکن‌های کمتری مصرف می‌کند، تولید می‌کند. به عنوان مثال، مدل GPT-4o-mini با استفاده از محاسبه زمان خواب به دقت بالاتری با کمتر از ۲۰۰ توکن زمان آزمایش در مقایسه با بیش از ۵۰۰ توکن مورد نیاز در خط پایه دست یافت. حتی زمانی که مدل‌هایی مانند Claude Sonnet 3.7 و DeepSeek R1 ارزیابی شدند، بهبودهای مشابهی مشاهده شد.

مقیاس‌بندی میزان محاسبات اختصاص داده شده به زمان خواب بیشتر نتایج را بهبود بخشید. با اجرای پنج نسل موازی در طول زمان خواب در وظایف پیچیده، محققان منحنی پارتو را بیشتر پیش بردند. با این حال، آن‌ها بازده نزولی فراتر از این نقطه را متذکر شدند. نکته مهم این است که نتایج نشان داد که مدل‌های قوی‌تر که وظایف دشوارتری را انجام می‌دهند، از محاسبات زمان خواب اضافی بیشتر بهره می‌برند. همچنین، مستهلک کردن محاسبات زمان خواب زمانی بسیار مقرون به صرفه شد که زمینه‌ها به چندین پرسش مرتبط خدمت کردند. محققان با وزن دادن به توکن‌های زمان آزمایش به عنوان ده برابر گران‌تر از توکن‌های زمان خواب، که با نسبت‌های هزینه تأخیر صنعت همسو است، کاهش تا ۲.۵ برابر در میانگین هزینه در هر پرسش را تأیید کردند.

یکی دیگر از یافته‌های جالب این بود که محاسبه زمان خواب زمانی بهترین کار را انجام داد که پرسش‌های کاربر قابل پیش‌بینی بودند. محققان با استفاده از Llama2-70B، قابلیت پیش‌بینی هر پرسش را با توجه به زمینه آن امتیاز دادند و همبستگی قوی پیدا کردند: هرچه پرسش قابل پیش‌بینی‌تر باشد، مزیت بیشتر است. در مثال‌هایی که سؤال به طور منطقی از زمینه داده شده دنبال می‌شد، محاسبه زمان خواب سود بیشتری به همراه داشت. برعکس، پرسش‌های کمتر قابل پیش‌بینی یا انتزاعی اثربخشی کاهش‌یافته‌ای را تجربه کردند، اگرچه آن‌ها همچنان در مقایسه با روش‌های سنتی فقط زمان آزمایش مزایایی را نشان دادند.

قابلیت پیش‌بینی پرسش در مقابل عملکرد

در مجموع، این تحقیق یک تکنیک هوشمند و مقیاس‌پذیر برای افزایش کارایی LLMها بدون به خطر انداختن دقت ارائه می‌کند. با بهره‌گیری از زمان بیکاری در غیر این صورت، محاسبه زمان خواب بار روی سیستم‌های بی‌درنگ را کاهش می‌دهد، هزینه‌های عملیاتی را کاهش می‌دهد و زمان پاسخ را بهبود می‌بخشد. بهبودهای کمی واضح، مانند کاهش ۵ برابری در محاسبات، افزایش دقت ۱۳-۱۸٪ و کاهش تا ۲.۵ برابر در هزینه در هر پرسش، نشان می‌دهد که رویکردهای آینده‌نگر مانند این می‌تواند نسل بعدی دستیاران هوشمند و آگاه به زمینه را شکل دهد.

چند نکته کلیدی از تحقیق به شرح زیر است:

  • محاسبه زمان خواب به مدل‌ها اجازه می‌دهد تا با استدلال در مورد زمینه قبل از رسیدن پرسش، پرسش‌ها را پیش‌بینی کنند.
  • دقت با مقیاس‌بندی محاسبه زمان خواب، ۱۳٪ در GSM-Symbolic و ۱۸٪ در مجموعه‌های داده AIME بهبود یافت.
  • الزامات محاسبه زمان آزمایش تقریباً ۵ برابر برای سطوح عملکرد مشابه کاهش یافت.
  • هنگام به اشتراک گذاشتن زمینه در بین ۱۰ پرسش مرتبط، میانگین هزینه پرسش با ضریب ۲.۵ کاهش یافت.
  • در تنظیمات محاسبه موازی در بودجه‌های معادل، از استراتژی pass@k بهتر عمل کرد.
  • در پرسش‌های قابل پیش‌بینی‌تر، که از طریق امتیازدهی احتمال گزارش شناسایی می‌شوند، موثرتر است.
  • بازده نزولی فراتر از پنج نسل موازی برای محاسبه زمان خواب مشاهده شد.