روباتی که سریع و آهسته فکر می‌کند
روباتی که سریع و آهسته فکر می‌کند

تکنیک جدید به مدل‌های زبانی بزرگ کمک می‌کند تا طول CoT را مهار کرده و استدلال را بدون افزایش هزینه‌های محاسباتی بهینه کنند

برای دریافت آخرین به‌روزرسانی‌ها و محتوای اختصاصی در مورد پوشش هوش مصنوعی پیشرو در صنعت، در خبرنامه‌های روزانه و هفتگی ما عضو شوید. بیشتر بدانید


استدلال از طریق زنجیره تفکر (Chain-of-Thought یا CoT) - فرآیندی که مدل‌ها مسائل را به "افکار" قابل مدیریت تقسیم می‌کنند قبل از اینکه پاسخ‌ها را استنتاج کنند - به بخشی جدایی‌ناپذیر از آخرین نسل از مدل‌های زبانی بزرگ (LLM) تبدیل شده است.

با این حال، هزینه‌های استنتاج مدل‌های استدلال می‌تواند به سرعت افزایش یابد زیرا مدل‌ها توکن‌های CoT اضافی تولید می‌کنند. در یک مقاله جدید، محققان دانشگاه کارنگی ملون یک تکنیک آموزش LLM را پیشنهاد می‌کنند که به توسعه‌دهندگان کنترل بیشتری بر طول CoT می‌دهد.

این تکنیک که بهینه‌سازی سیاست کنترل‌شده با طول (Length Controlled Policy Optimization یا LCPO) نامیده می‌شود، مدل را شرطی می‌کند تا پاسخ‌های صحیح ارائه دهد و در عین حال "افکار" خود را در یک بودجه توکن از پیش تعیین‌شده نگه دارد. آزمایش‌ها نشان می‌دهد که مدل‌های آموزش‌دیده بر اساس LCPO، مصالحه‌ای هموار بین دقت و هزینه‌ها ارائه می‌دهند و به طور شگفت‌انگیزی می‌توانند در طول استدلال برابر، عملکرد بهتری نسبت به مدل‌های بزرگ‌تر داشته باشند. LCPO می‌تواند با صرفه‌جویی در هزاران توکن در هر دور مکالمه با یک LLM، به طور چشمگیری هزینه‌های استنتاج را در برنامه‌های کاربردی سازمانی کاهش دهد.

عملکرد LLM منجر به CoTهای طولانی‌تر می‌شود

مدل‌های استدلال مانند OpenAI o1 و DeepSeek-R1 از طریق یادگیری تقویتی (RL) آموزش داده می‌شوند تا از مقیاس‌بندی زمان آزمایش استفاده کرده و قبل از ارائه پاسخ، ردیابی‌های CoT را تولید کنند. شواهد تجربی نشان می‌دهد که وقتی مدل‌ها طولانی‌تر "فکر" می‌کنند، تمایل دارند عملکرد بهتری در وظایف استدلال داشته باشند.

به عنوان مثال، R1 در ابتدا بر اساس RL خالص و بدون مثال‌های برچسب‌گذاری شده توسط انسان آموزش داده شد. یکی از بینش‌ها این بود که با بهبود عملکرد مدل، یاد گرفت تا ردیابی‌های CoT طولانی‌تری نیز تولید کند.

در حالی که به طور کلی، زنجیره‌های CoT طولانی منجر به پاسخ‌های دقیق‌تری می‌شوند، اما یک گلوگاه محاسباتی نیز در اعمال مدل‌های استدلال در مقیاس بزرگ ایجاد می‌کنند. در حال حاضر کنترل بسیار کمی بر بودجه محاسباتی زمان آزمایش وجود دارد و توالی‌ها به راحتی می‌توانند بدون ارائه دستاوردهای قابل توجه، تا ده‌ها هزار توکن کشیده شوند. تلاش‌هایی برای کنترل طول زنجیره‌های استدلال انجام شده است، اما معمولاً عملکرد مدل را کاهش می‌دهند.

بهینه‌سازی سیاست کنترل‌شده با طول (LCPO) توضیح داده شد

روش کلاسیک RL، مدل‌های زبانی بزرگ را فقط برای دستیابی به پاسخ صحیح آموزش می‌دهد. LCPO این الگو را با معرفی دو هدف آموزشی تغییر می‌دهد: 1) به دست آوردن نتیجه صحیح و 2) محدود نگه داشتن زنجیره CoT در یک طول توکن خاص. بنابراین، اگر مدل پاسخ صحیح را تولید کند اما توکن‌های CoT زیادی تولید کند، جریمه می‌شود و مجبور می‌شود زنجیره استدلالی ارائه دهد که به همان پاسخ برسد اما با بودجه توکن کمتری.

محققان می‌نویسند: «مدل‌های آموزش‌دیده با LCPO یاد می‌گیرند که محدودیت‌های طول را برآورده کنند در حالی که عملکرد استدلال را بهینه می‌کنند، نه اینکه به روش‌های ابتکاری دست‌ساز تکیه کنند.»

آنها دو نوع LCPO را پیشنهاد می‌کنند: (1) LCPO-exact، که مستلزم این است که استدلال تولیدشده دقیقاً برابر با طول هدف باشد، و (2) LCPO-max، که مستلزم این است که خروجی طولانی‌تر از طول هدف نباشد.

برای آزمایش این تکنیک، محققان یک مدل استدلال 1.5 میلیارد پارامتری (Qwen-Distilled-R1-1.5B) را بر اساس دو طرح LCPO پیشنهادی تنظیم کردند تا مدل‌های L1-max و L1-exact را ایجاد کنند. آموزش بر اساس مسائل ریاضی با نتایج متمایز و قابل تأیید بود. با این حال، ارزیابی شامل مسائل ریاضی و همچنین وظایف خارج از توزیع مانند درک زبان چندوظیفه‌ای گسترده اندازه‌گیری (MMLU) و معیار پرسش و پاسخ Google-proof در سطح فارغ‌التحصیلان (GPQA) بود.

یافته‌های آنها نشان می‌دهد که مدل‌های L1 می‌توانند به طور دقیق بودجه توکن و عملکرد استدلال را متعادل کنند، و با ارائه محدودیت‌های طول متفاوت به مدل، به طور هموار بین استدلال کوتاه و کارآمد و استدلال طولانی‌تر و دقیق‌تر درونیابی کنند. نکته مهم این است که در برخی از وظایف، مدل‌های L1 می‌توانند عملکرد مدل استدلال اصلی را با بودجه توکن کمتری بازتولید کنند.

<em>مدل‌های L1 از نظر هزینه-دقت عملکرد بهتری نسبت به مدل‌های S1 و پایه دارند (منبع: arXiv)</em>

در مقایسه با S1 - تنها روش دیگری که طول CoT را محدود می‌کند - مدل‌های L1 تا 150٪ افزایش عملکرد را در بودجه‌های توکن مختلف نشان می‌دهند. 

محققان می‌نویسند: «این تفاوت اساسی را می‌توان به دو عامل کلیدی نسبت داد. (1) L1 به طور هوشمندانه CoT خود را با محدودیت‌های طول مشخص‌شده مطابقت می‌دهد بدون اینکه روند استدلال را مختل کند، در حالی که S1 اغلب استدلال را در میانه راه قطع می‌کند. و (2) L1 به طور صریح برای تولید زنجیره‌های استدلال با کیفیت بالا با طول‌های مختلف آموزش داده شده است، و به طور موثر الگوهای استدلال را از زنجیره‌های طولانی‌تر به زنجیره‌های کوتاه‌تر تقطیر می‌کند.»

L1 همچنین در طول تولید برابر، 5٪ بهتر از همتای غیر استدلالی خود و 2٪ بهتر از GPT-4o عمل می‌کند. محققان می‌نویسند: «تا جایی که ما می‌دانیم، این اولین نمایش است که یک مدل 1.5B می‌تواند از مدل‌های پیشرو مانند GPT-4o پیشی بگیرد، با وجود استفاده از همان طول تولید.»

<em>مدل‌های آموزش‌دیده با LCPO زنجیره استدلال خود را بر اساس بودجه توکن خود تنظیم می‌کنند (منبع: arXiv)</em>

جالب اینجاست که CoT مدل نشان می‌دهد که یاد می‌گیرد روند استدلال خود را بر اساس بودجه توکن خود تنظیم کند. به عنوان مثال، در بودجه‌های طولانی‌تر، مدل به احتمال زیاد توکن‌های مرتبط با خوداصلاحی و تأیید (یعنی "اما" و "صبر کنید") و نتیجه‌گیری ("بنابراین" و "بنابراین") را تولید می‌کند. 

فراتر از بهبود کنترل طول در تنظیمات استاندارد استدلال ریاضی، مدل‌های L1 به طرز شگفت‌انگیزی به وظایف خارج از توزیع، از جمله GPQA و MMLU تعمیم می‌یابند.

این خط جدید تحقیق در مورد مدل‌هایی که می‌توانند بودجه استدلال خود را تنظیم کنند، می‌تواند کاربردهای مهمی برای برنامه‌های کاربردی دنیای واقعی داشته باشد و به شرکت‌ها این امکان را می‌دهد تا مدل‌های استدلال را بدون هزینه‌های سرسام‌آور مقیاس‌بندی کنند. این یک جایگزین قدرتمند برای استقرار ساده مدل‌های بزرگ‌تر و گران‌تر است - و می‌تواند یک عامل حیاتی در اقتصادی‌تر کردن هوش مصنوعی برای برنامه‌های کاربردی با حجم بالا و دنیای واقعی باشد.

محققان کد LCPO و وزن‌های مدل‌های L1 را به صورت متن‌باز منتشر کرده‌اند.