مقاله هوش مصنوعی: معرفی تکنیک‌های مقیاس‌پذیری در زمان استنتاج - ارزیابی عمیق مدل‌های استدلال مایکروسافت در وظایف پیچیده

مدل‌های زبانی بزرگ اغلب به دلیل تسلط زبانی خود مورد تحسین قرار می‌گیرند، اما یک حوزه رو به رشد، بهبود توانایی استدلال آن‌ها است—به ویژه در زمینه‌هایی که حل مسئله پیچیده مورد نیاز است. این موارد شامل معادلات ریاضی و وظایفی است که شامل منطق فضایی، مسیریابی و برنامه‌ریزی ساختاریافته می‌شوند. در چنین حوزه‌هایی، مدل‌ها باید تفکر گام به گام شبیه به انسان را شبیه‌سازی کنند، جایی که راه حل‌ها بلافاصله آشکار نیستند. این نوع استدلال ساختاریافته، رفتار زمان استنتاج را به یک موضوع مهم مطالعه در تحقیقات یادگیری ماشین تبدیل می‌کند.

علیرغم پیشرفت در معماری مدل و مجموعه‌داده‌های آموزشی، بسیاری از مدل‌های زبانی هنگام مواجهه با وظایف استدلال چند مرحله‌ای یا با دشواری بالا، همچنان دچار مشکل می‌شوند. چالش این است که حتی اگر یک مدل بتواند به اطلاعات گسترده دسترسی داشته باشد، ممکن است نداند که چگونه به طور موثر در چندین مرحله از آن استفاده کند. وظایفی مانند انتخاب زمان جلسات با محدودیت‌ها یا حل مسائل NP-hard نیاز به توالی منطقی پایدار دارند، که مدل‌های استاندارد آن را دشوار می‌دانند. افزودن پارامترها یا حافظه بیشتر در برخی زمینه‌ها کمک کرده است، اما چنین راه حل‌های brute-force اغلب منجر به کاهش بازدهی در هنگام افزایش پیچیدگی کار می‌شوند.

برای مقابله با این محدودیت‌ها، محققان ابزارهایی مانند chain-of-thought prompting و fine-tuning پس از آموزش را برای همسویی بهتر مدل‌ها با وظایف پیچیده بررسی کرده‌اند. برخی از روش‌ها شامل تولید چندین پاسخ مستقل و سپس استفاده از مکانیزم‌های ابتکاری یا رای‌گیری برای انتخاب محتمل‌ترین پاسخ صحیح است. دیگران با خود پالایشی آزمایش می‌کنند—به این صورت که مدل از پاسخ‌های خود انتقاد کند و بر این اساس تجدید نظر کند. این رویکردها با موفقیت‌های متفاوتی در مدل‌های معمولی مانند GPT-4o، Claude 3.5 Sonnet و Gemini 2.0 Pro پیاده‌سازی شده‌اند، اما این مدل‌ها همچنان بسته به معیار، تغییرپذیری نشان می‌دهند. در برخی موارد، خروجی طولانی‌تر به دقت بهتر تبدیل نشد و کارایی توکن ناپایدار باقی ماند.

محققان در مایکروسافت یک چارچوب ارزیابی دقیق برای مقیاس‌بندی زمان استنتاج معرفی کردند که شامل نه مدل و هشت معیار کار پیچیده است. این شامل مقایسه مدل‌های معمولی در برابر مدل‌های بهینه‌سازی‌شده استدلال مانند DeepSeek R1، O1 و O3-mini بود. روش آن‌ها شامل مقیاس‌بندی موازی بود، جایی که چندین خروجی تولید و جمع‌آوری می‌شوند، و مقیاس‌بندی ترتیبی، جایی که از مدل خواسته می‌شود تا خروجی خود را بر اساس بازخورد ساختاریافته به طور مکرر اصلاح کند. معیارها از حوزه‌هایی مانند برنامه‌ریزی تقویم، المپیادهای ریاضی و استدلال فضایی تهیه شده‌اند و این تیم دو مجموعه داده جدید برای مسائل NP-hard معرفی کرد: 3SAT و TSP.

این روش‌شناسی بر دو استراتژی اصلی تکیه داشت: نمونه‌برداری از چندین نسل برای ارزیابی تغییرپذیری نتایج و استفاده از منتقدان برای شبیه‌سازی استدلال تقویت‌شده با بازخورد. در مقیاس‌بندی موازی، مدل چندین پاسخ را خروجی می‌دهد که با استفاده از جمع‌کننده‌هایی مانند رای اکثریت یا best-of-n ارزیابی می‌شوند. در مقیاس‌بندی ترتیبی، مدل پس از هر تلاش بازخورد دریافت می‌کند و از او خواسته می‌شود دوباره امتحان کند. این به محققان اجازه داد تا عملکرد فعلی و سقف بالقوه برای بهبود را در صورت افزایش منابع محاسباتی تخمین بزنند. جمع‌کننده‌هایی مانند میانگین و worst-of-n کمک کردند تا مشخص شود که مدل‌ها به طور مداوم در کجا شکست خورده‌اند یا موفق شده‌اند. این رویکرد دوگانه بینشی را در مورد چگونگی استفاده مدل‌ها از مراحل استنتاج اضافی و اینکه آیا مکانیزم‌های بازخورد کیفیت پاسخ را بهبود می‌بخشند یا خیر، ارائه داد.

تحلیل عملکرد تفاوت‌های قابل توجهی بین مدل‌ها و انواع وظایف نشان داد. در معیار GPQA، مدل برتر، O1، به دقت 90.9٪ رسید، در حالی که GPT-4o به 77.7٪ رسید. در مجموعه داده TSP، O1 دقت بالای 80٪ را در اکثر سطوح حفظ کرد، در حالی که عملکرد GPT-4o تنها زمانی به اوج خود رسید که با بیش از 20 تماس استنتاجی superscaled شد. در BA Calendar، DeepSeek R1 به دقت 88.5٪ دست یافت و از Claude 3.7 Sonnet و Gemini 2.0 Pro بهتر عمل کرد. با این حال، نتایج همچنین نشان داد که افزایش استفاده از توکن، دقت بالاتری را تضمین نمی‌کند. به عنوان مثال، DeepSeek R1 به طور قابل توجهی بیشتر از Claude 3.7 Sonnet توکن مصرف کرد، اما تنها به طور حاشیه‌ای در برخی از وظایف ریاضی از آن بهتر عمل کرد. حتی در یک مدل واحد، تلاش‌های مکرر روی یک سوال یکسان، تغییرات زیادی در تعداد توکن‌ها نشان داد، که نگرانی‌هایی را در مورد قابلیت پیش‌بینی هزینه برای کاربردهای دنیای واقعی ایجاد می‌کند.

این مطالعه بر شکاف بین مدل‌های سنتی و مدل‌های تقویت‌شده استدلال تأکید می‌کند و نشان می‌دهد که مقیاس‌بندی هوشمند—نه فقط توکن‌های بیشتر—می‌تواند عملکرد کار پیچیده را بهبود بخشد. محققان نشان دادند که حلقه‌های بازخورد و تأییدکننده‌های قوی، حتی در حوزه‌های دشوار، سود قابل توجهی در دقت مدل ارائه می‌دهند. یافته‌های آن‌ها نشان می‌دهد که مدل‌های استدلال هنوز جای پیشرفت دارند، به ویژه زمانی که توسط استراتژی‌های استنتاج ساختاریافته و مدیریت مقرون به صرفه توکن هدایت شوند.

مقاله و GitHub را بررسی کنید. تمام اعتبار این تحقیق به محققان این پروژه می‌رسد.

https://www.marktechpost.com/2025/04/07/this-ai-paper-introduces-inference-time-scaling-techniques-microsofts-deep-evaluation-of-reasoning-models-on-complex-tasks/