برای دریافت آخرین بهروزرسانیها و محتوای اختصاصی در مورد پوشش هوش مصنوعی پیشرو در صنعت، در خبرنامههای روزانه و هفتگی ما عضو شوید. بیشتر بدانید
استدلال از طریق زنجیره تفکر (Chain-of-Thought یا CoT) - فرآیندی که مدلها مسائل را به "افکار" قابل مدیریت تقسیم میکنند قبل از اینکه پاسخها را استنتاج کنند - به بخشی جداییناپذیر از آخرین نسل از مدلهای زبانی بزرگ (LLM) تبدیل شده است.
با این حال، هزینههای استنتاج مدلهای استدلال میتواند به سرعت افزایش یابد زیرا مدلها توکنهای CoT اضافی تولید میکنند. در یک مقاله جدید، محققان دانشگاه کارنگی ملون یک تکنیک آموزش LLM را پیشنهاد میکنند که به توسعهدهندگان کنترل بیشتری بر طول CoT میدهد.
این تکنیک که بهینهسازی سیاست کنترلشده با طول (Length Controlled Policy Optimization یا LCPO) نامیده میشود، مدل را شرطی میکند تا پاسخهای صحیح ارائه دهد و در عین حال "افکار" خود را در یک بودجه توکن از پیش تعیینشده نگه دارد. آزمایشها نشان میدهد که مدلهای آموزشدیده بر اساس LCPO، مصالحهای هموار بین دقت و هزینهها ارائه میدهند و به طور شگفتانگیزی میتوانند در طول استدلال برابر، عملکرد بهتری نسبت به مدلهای بزرگتر داشته باشند. LCPO میتواند با صرفهجویی در هزاران توکن در هر دور مکالمه با یک LLM، به طور چشمگیری هزینههای استنتاج را در برنامههای کاربردی سازمانی کاهش دهد.
عملکرد LLM منجر به CoTهای طولانیتر میشود
مدلهای استدلال مانند OpenAI o1 و DeepSeek-R1 از طریق یادگیری تقویتی (RL) آموزش داده میشوند تا از مقیاسبندی زمان آزمایش استفاده کرده و قبل از ارائه پاسخ، ردیابیهای CoT را تولید کنند. شواهد تجربی نشان میدهد که وقتی مدلها طولانیتر "فکر" میکنند، تمایل دارند عملکرد بهتری در وظایف استدلال داشته باشند.
به عنوان مثال، R1 در ابتدا بر اساس RL خالص و بدون مثالهای برچسبگذاری شده توسط انسان آموزش داده شد. یکی از بینشها این بود که با بهبود عملکرد مدل، یاد گرفت تا ردیابیهای CoT طولانیتری نیز تولید کند.
در حالی که به طور کلی، زنجیرههای CoT طولانی منجر به پاسخهای دقیقتری میشوند، اما یک گلوگاه محاسباتی نیز در اعمال مدلهای استدلال در مقیاس بزرگ ایجاد میکنند. در حال حاضر کنترل بسیار کمی بر بودجه محاسباتی زمان آزمایش وجود دارد و توالیها به راحتی میتوانند بدون ارائه دستاوردهای قابل توجه، تا دهها هزار توکن کشیده شوند. تلاشهایی برای کنترل طول زنجیرههای استدلال انجام شده است، اما معمولاً عملکرد مدل را کاهش میدهند.
بهینهسازی سیاست کنترلشده با طول (LCPO) توضیح داده شد
روش کلاسیک RL، مدلهای زبانی بزرگ را فقط برای دستیابی به پاسخ صحیح آموزش میدهد. LCPO این الگو را با معرفی دو هدف آموزشی تغییر میدهد: 1) به دست آوردن نتیجه صحیح و 2) محدود نگه داشتن زنجیره CoT در یک طول توکن خاص. بنابراین، اگر مدل پاسخ صحیح را تولید کند اما توکنهای CoT زیادی تولید کند، جریمه میشود و مجبور میشود زنجیره استدلالی ارائه دهد که به همان پاسخ برسد اما با بودجه توکن کمتری.
محققان مینویسند: «مدلهای آموزشدیده با LCPO یاد میگیرند که محدودیتهای طول را برآورده کنند در حالی که عملکرد استدلال را بهینه میکنند، نه اینکه به روشهای ابتکاری دستساز تکیه کنند.»
آنها دو نوع LCPO را پیشنهاد میکنند: (1) LCPO-exact، که مستلزم این است که استدلال تولیدشده دقیقاً برابر با طول هدف باشد، و (2) LCPO-max، که مستلزم این است که خروجی طولانیتر از طول هدف نباشد.
برای آزمایش این تکنیک، محققان یک مدل استدلال 1.5 میلیارد پارامتری (Qwen-Distilled-R1-1.5B) را بر اساس دو طرح LCPO پیشنهادی تنظیم کردند تا مدلهای L1-max و L1-exact را ایجاد کنند. آموزش بر اساس مسائل ریاضی با نتایج متمایز و قابل تأیید بود. با این حال، ارزیابی شامل مسائل ریاضی و همچنین وظایف خارج از توزیع مانند درک زبان چندوظیفهای گسترده اندازهگیری (MMLU) و معیار پرسش و پاسخ Google-proof در سطح فارغالتحصیلان (GPQA) بود.
یافتههای آنها نشان میدهد که مدلهای L1 میتوانند به طور دقیق بودجه توکن و عملکرد استدلال را متعادل کنند، و با ارائه محدودیتهای طول متفاوت به مدل، به طور هموار بین استدلال کوتاه و کارآمد و استدلال طولانیتر و دقیقتر درونیابی کنند. نکته مهم این است که در برخی از وظایف، مدلهای L1 میتوانند عملکرد مدل استدلال اصلی را با بودجه توکن کمتری بازتولید کنند.
در مقایسه با S1 - تنها روش دیگری که طول CoT را محدود میکند - مدلهای L1 تا 150٪ افزایش عملکرد را در بودجههای توکن مختلف نشان میدهند.
محققان مینویسند: «این تفاوت اساسی را میتوان به دو عامل کلیدی نسبت داد. (1) L1 به طور هوشمندانه CoT خود را با محدودیتهای طول مشخصشده مطابقت میدهد بدون اینکه روند استدلال را مختل کند، در حالی که S1 اغلب استدلال را در میانه راه قطع میکند. و (2) L1 به طور صریح برای تولید زنجیرههای استدلال با کیفیت بالا با طولهای مختلف آموزش داده شده است، و به طور موثر الگوهای استدلال را از زنجیرههای طولانیتر به زنجیرههای کوتاهتر تقطیر میکند.»
L1 همچنین در طول تولید برابر، 5٪ بهتر از همتای غیر استدلالی خود و 2٪ بهتر از GPT-4o عمل میکند. محققان مینویسند: «تا جایی که ما میدانیم، این اولین نمایش است که یک مدل 1.5B میتواند از مدلهای پیشرو مانند GPT-4o پیشی بگیرد، با وجود استفاده از همان طول تولید.»
جالب اینجاست که CoT مدل نشان میدهد که یاد میگیرد روند استدلال خود را بر اساس بودجه توکن خود تنظیم کند. به عنوان مثال، در بودجههای طولانیتر، مدل به احتمال زیاد توکنهای مرتبط با خوداصلاحی و تأیید (یعنی "اما" و "صبر کنید") و نتیجهگیری ("بنابراین" و "بنابراین") را تولید میکند.
فراتر از بهبود کنترل طول در تنظیمات استاندارد استدلال ریاضی، مدلهای L1 به طرز شگفتانگیزی به وظایف خارج از توزیع، از جمله GPQA و MMLU تعمیم مییابند.
این خط جدید تحقیق در مورد مدلهایی که میتوانند بودجه استدلال خود را تنظیم کنند، میتواند کاربردهای مهمی برای برنامههای کاربردی دنیای واقعی داشته باشد و به شرکتها این امکان را میدهد تا مدلهای استدلال را بدون هزینههای سرسامآور مقیاسبندی کنند. این یک جایگزین قدرتمند برای استقرار ساده مدلهای بزرگتر و گرانتر است - و میتواند یک عامل حیاتی در اقتصادیتر کردن هوش مصنوعی برای برنامههای کاربردی با حجم بالا و دنیای واقعی باشد.
محققان کد LCPO و وزنهای مدلهای L1 را به صورت متنباز منتشر کردهاند.