تعادل دقت و کارایی در مدلهای زبانی: رویکرد آموزش تقویتی دو فازی برای استدلال مختصر
پیشرفتهای اخیر در مدلهای زبانی بزرگ (LLMs)، قابلیتهای استدلالی آنها را به طور قابل توجهی افزایش داده است، به ویژه از طریق تنظیم دقیق مبتنی بر یادگیری تقویتی (RL). این مدلها که در ابتدا با یادگیری نظارتشده برای پیشبینی توکن آموزش داده شدهاند، تحت آموزش پس از یادگیری تقویتی قرار میگیرند و مسیرهای استدلالی مختلفی را برای رسیدن به پاسخهای صحیح بررسی میکنند، درست مانند اینکه یک عامل در یک بازی حرکت میکند. این فرآیند منجر به رفتارهای نوظهوری مانند خوداصلاحی میشود، که اغلب به آن "لحظه آها" میگویند، جایی که مدلها شروع به اصلاح اشتباهات خود بدون آموزش صریح میکنند. در حالی که این امر دقت را بهبود میبخشد، منجر به پاسخهای بسیار طولانیتر، افزایش استفاده از توکن، هزینههای محاسباتی و تأخیر نیز میشود. علیرغم این تصور که خروجیهای طولانیتر برابر با استدلال بهتر است، تحقیقات نتایج متفاوتی را نشان میدهد - برخی از پیشرفتها مشاهده میشود، اما پاسخهای بیش از حد طولانی نیز میتواند عملکرد را کاهش دهد، که نشاندهنده کاهش بازده است.
محققان در حال بررسی راههایی برای ایجاد تعادل بین کیفیت استدلال و کارایی برای رفع این مشکل هستند. روشها شامل استفاده از مدلهای کوچکتر و سریعتر، استفاده از مهندسی سریع برای کاهش لفاظی و توسعه تکنیکهای شکلدهی پاداش است که استدلال مختصر و در عین حال مؤثر را تشویق میکند. یکی از رویکردهای قابل توجه، تقطیر طولانی به کوتاه است، جایی که مدلها از توضیحات دقیق یاد میگیرند و برای تولید پاسخهای کوتاهتر و در عین حال دقیق آموزش داده میشوند. با استفاده از این تکنیکها، مدلهایی مانند Kimi عملکرد رقابتی را حتی در برابر مدلهای بزرگتر مانند GPT-4 نشان دادهاند در حالی که توکنهای کمتری مصرف میکنند. مطالعات همچنین مفهوم "پیچیدگی توکن" را برجسته میکنند و نشان میدهند که مشکلات برای حل دقیق به حداقل آستانه توکن نیاز دارند و استراتژیهای سریع با هدف اختصار اغلب از این نقطه بهینه کوتاهی میکنند. به طور کلی، یافتهها بر اهمیت توسعه روشهای استدلالی کارآمدتر بدون به خطر انداختن عملکرد تأکید دارند.
محققان Wand AI این باور را به چالش میکشند که پاسخهای طولانیتر ذاتاً منجر به استدلال بهتر در مدلهای زبانی بزرگ میشوند. آنها از طریق تجزیه و تحلیل نظری و آزمایشها نشان میدهند که این لفاظی محصول جانبی بهینهسازی RL است تا یک ضرورت برای دقت. جالب اینجاست که پاسخهای مختصر اغلب با صحت بالاتر همبستگی دارند و پاسخهای صحیح کوتاهتر از پاسخهای نادرست هستند. آنها یک رویکرد آموزش RL دو فازی را پیشنهاد میکنند: فاز اول توانایی استدلال را افزایش میدهد، در حالی که فاز دوم با استفاده از یک مجموعه داده کوچک، اختصار را اعمال میکند. این روش طول پاسخ را بدون قربانی کردن دقت کاهش میدهد و کارایی و عملکرد بهبود یافته را با حداقل هزینه محاسباتی ارائه میدهد.
پاسخهای طولانیتر همیشه منجر به عملکرد بهتر در مدلهای زبانی نمیشوند. آموزش پس از یادگیری تقویتی (RL) تمایل دارد طول پاسخ را کاهش دهد در حالی که دقت را حفظ یا بهبود میبخشد، به خصوص در اوایل آموزش. این برخلاف این باور است که زنجیرههای استدلالی طولانی برای صحت ضروری هستند. این پدیده با "بنبستها" مرتبط است، جایی که خروجیهای بیش از حد طولانی خطر انحراف از مسیر را دارند. تجزیه و تحلیل وظایف زبانی به عنوان فرآیندهای تصمیمگیری مارکوف نشان میدهد که RL ضرر را به حداقل میرساند، نه طول، و خروجیهای طولانیتر تنها زمانی ظاهر میشوند که پاداشها به طور مداوم منفی باشند. یک استراتژی RL دو فازی—ابتدا روی مسائل سخت، سپس روی مسائل قابل حل—میتواند استدلال را تقویت کند در حالی که در نهایت اختصار و استحکام را ترویج میکند.
استراتژی RL دو فازی منجر به دستاوردهای عملکرد قابل توجهی در اندازههای مختلف مدل شد. آموزش بر روی سطوح دشواری مختلف نشان داد که مشکلات آسانتر به مدلها کمک میکند پاسخها را کوتاه کنند در حالی که دقت را حفظ یا بهبود میبخشند. فاز دوم RL با استفاده از تنها هشت مسئله ریاضی، خروجیهای مختصرتر و قویتری را در سراسر معیارهایی مانند AIME، AMC و MATH-500 تولید کرد، با روندهای مشابهی که در وظایف STEM از MMLU مشاهده شد. حتی حداقل آموزش پس از یادگیری تقویتی، دقت و ثبات را تحت نمونهبرداری با دمای پایین بهبود بخشید. علاوه بر این، مدلهای بدون پالایش RL قبلی، مانند Qwen-Math-v2.5، افزایش دقت زیادی را نشان دادند—تا 30٪ از آموزش تنها بر روی چهار مسئله ریاضی.
در نتیجه، این مطالعه یک روش آموزش پس از یادگیری تقویتی دو فازی را ارائه میدهد که استدلال و اختصار را در مدلهای زبانی بهبود میبخشد. فاز اول دقت را افزایش میدهد، در حالی که فاز دوم بر کوتاه کردن پاسخها بدون قربانی کردن عملکرد تمرکز دارد. این رویکرد که بر روی مدلهای R1 اعمال میشود، طول پاسخ را بیش از 40٪ کاهش داد در حالی که دقت را حفظ میکرد، به خصوص در دماهای پایین. یافتهها نشان میدهد که پاسخهای طولانیتر ذاتاً بهتر نیستند و RL هدفمند میتواند به استدلال مختصر دست یابد. این مطالعه همچنین نشان میدهد که حتی حداقل آموزش RL میتواند به طور چشمگیری به مدلهای غیر استدلالی سود برساند و بر ارزش گنجاندن مسائل نسبتاً قابل حل و تنظیم دقیق پارامترهای PPO تأکید میکند.
مقاله را بررسی کنید: مقاله. تمام اعتبار این تحقیق به محققان این پروژه میرسد. همچنین، میتوانید ما را در توییتر دنبال کنید و فراموش نکنید که به سابردیت 85k+ ما بپیوندید: ML SubReddit.