مقاله هوش مصنوعی: معرفی تکنیکهای مقیاسپذیری در زمان استنتاج - ارزیابی عمیق مدلهای استدلال مایکروسافت در وظایف پیچیده
مدلهای زبانی بزرگ اغلب به دلیل تسلط زبانی خود مورد تحسین قرار میگیرند، اما یک حوزه رو به رشد، بهبود توانایی استدلال آنها است—به ویژه در زمینههایی که حل مسئله پیچیده مورد نیاز است. این موارد شامل معادلات ریاضی و وظایفی است که شامل منطق فضایی، مسیریابی و برنامهریزی ساختاریافته میشوند. در چنین حوزههایی، مدلها باید تفکر گام به گام شبیه به انسان را شبیهسازی کنند، جایی که راه حلها بلافاصله آشکار نیستند. این نوع استدلال ساختاریافته، رفتار زمان استنتاج را به یک موضوع مهم مطالعه در تحقیقات یادگیری ماشین تبدیل میکند.
علیرغم پیشرفت در معماری مدل و مجموعهدادههای آموزشی، بسیاری از مدلهای زبانی هنگام مواجهه با وظایف استدلال چند مرحلهای یا با دشواری بالا، همچنان دچار مشکل میشوند. چالش این است که حتی اگر یک مدل بتواند به اطلاعات گسترده دسترسی داشته باشد، ممکن است نداند که چگونه به طور موثر در چندین مرحله از آن استفاده کند. وظایفی مانند انتخاب زمان جلسات با محدودیتها یا حل مسائل NP-hard نیاز به توالی منطقی پایدار دارند، که مدلهای استاندارد آن را دشوار میدانند. افزودن پارامترها یا حافظه بیشتر در برخی زمینهها کمک کرده است، اما چنین راه حلهای brute-force اغلب منجر به کاهش بازدهی در هنگام افزایش پیچیدگی کار میشوند.
برای مقابله با این محدودیتها، محققان ابزارهایی مانند chain-of-thought prompting و fine-tuning پس از آموزش را برای همسویی بهتر مدلها با وظایف پیچیده بررسی کردهاند. برخی از روشها شامل تولید چندین پاسخ مستقل و سپس استفاده از مکانیزمهای ابتکاری یا رایگیری برای انتخاب محتملترین پاسخ صحیح است. دیگران با خود پالایشی آزمایش میکنند—به این صورت که مدل از پاسخهای خود انتقاد کند و بر این اساس تجدید نظر کند. این رویکردها با موفقیتهای متفاوتی در مدلهای معمولی مانند GPT-4o، Claude 3.5 Sonnet و Gemini 2.0 Pro پیادهسازی شدهاند، اما این مدلها همچنان بسته به معیار، تغییرپذیری نشان میدهند. در برخی موارد، خروجی طولانیتر به دقت بهتر تبدیل نشد و کارایی توکن ناپایدار باقی ماند.
محققان در مایکروسافت یک چارچوب ارزیابی دقیق برای مقیاسبندی زمان استنتاج معرفی کردند که شامل نه مدل و هشت معیار کار پیچیده است. این شامل مقایسه مدلهای معمولی در برابر مدلهای بهینهسازیشده استدلال مانند DeepSeek R1، O1 و O3-mini بود. روش آنها شامل مقیاسبندی موازی بود، جایی که چندین خروجی تولید و جمعآوری میشوند، و مقیاسبندی ترتیبی، جایی که از مدل خواسته میشود تا خروجی خود را بر اساس بازخورد ساختاریافته به طور مکرر اصلاح کند. معیارها از حوزههایی مانند برنامهریزی تقویم، المپیادهای ریاضی و استدلال فضایی تهیه شدهاند و این تیم دو مجموعه داده جدید برای مسائل NP-hard معرفی کرد: 3SAT و TSP.
این روششناسی بر دو استراتژی اصلی تکیه داشت: نمونهبرداری از چندین نسل برای ارزیابی تغییرپذیری نتایج و استفاده از منتقدان برای شبیهسازی استدلال تقویتشده با بازخورد. در مقیاسبندی موازی، مدل چندین پاسخ را خروجی میدهد که با استفاده از جمعکنندههایی مانند رای اکثریت یا best-of-n ارزیابی میشوند. در مقیاسبندی ترتیبی، مدل پس از هر تلاش بازخورد دریافت میکند و از او خواسته میشود دوباره امتحان کند. این به محققان اجازه داد تا عملکرد فعلی و سقف بالقوه برای بهبود را در صورت افزایش منابع محاسباتی تخمین بزنند. جمعکنندههایی مانند میانگین و worst-of-n کمک کردند تا مشخص شود که مدلها به طور مداوم در کجا شکست خوردهاند یا موفق شدهاند. این رویکرد دوگانه بینشی را در مورد چگونگی استفاده مدلها از مراحل استنتاج اضافی و اینکه آیا مکانیزمهای بازخورد کیفیت پاسخ را بهبود میبخشند یا خیر، ارائه داد.
تحلیل عملکرد تفاوتهای قابل توجهی بین مدلها و انواع وظایف نشان داد. در معیار GPQA، مدل برتر، O1، به دقت 90.9٪ رسید، در حالی که GPT-4o به 77.7٪ رسید. در مجموعه داده TSP، O1 دقت بالای 80٪ را در اکثر سطوح حفظ کرد، در حالی که عملکرد GPT-4o تنها زمانی به اوج خود رسید که با بیش از 20 تماس استنتاجی superscaled شد. در BA Calendar، DeepSeek R1 به دقت 88.5٪ دست یافت و از Claude 3.7 Sonnet و Gemini 2.0 Pro بهتر عمل کرد. با این حال، نتایج همچنین نشان داد که افزایش استفاده از توکن، دقت بالاتری را تضمین نمیکند. به عنوان مثال، DeepSeek R1 به طور قابل توجهی بیشتر از Claude 3.7 Sonnet توکن مصرف کرد، اما تنها به طور حاشیهای در برخی از وظایف ریاضی از آن بهتر عمل کرد. حتی در یک مدل واحد، تلاشهای مکرر روی یک سوال یکسان، تغییرات زیادی در تعداد توکنها نشان داد، که نگرانیهایی را در مورد قابلیت پیشبینی هزینه برای کاربردهای دنیای واقعی ایجاد میکند.
این مطالعه بر شکاف بین مدلهای سنتی و مدلهای تقویتشده استدلال تأکید میکند و نشان میدهد که مقیاسبندی هوشمند—نه فقط توکنهای بیشتر—میتواند عملکرد کار پیچیده را بهبود بخشد. محققان نشان دادند که حلقههای بازخورد و تأییدکنندههای قوی، حتی در حوزههای دشوار، سود قابل توجهی در دقت مدل ارائه میدهند. یافتههای آنها نشان میدهد که مدلهای استدلال هنوز جای پیشرفت دارند، به ویژه زمانی که توسط استراتژیهای استنتاج ساختاریافته و مدیریت مقرون به صرفه توکن هدایت شوند.
مقاله و GitHub را بررسی کنید. تمام اعتبار این تحقیق به محققان این پروژه میرسد.