تعادل دقت و کارایی در مدل‌های زبانی: رویکرد آموزش تقویتی دو فازی برای استدلال مختصر

نمودار نشان دهنده بهبود دقت و اختصار در مدل های زبانی با استفاده از رویکرد آموزش تقویتی دو فازی

تعادل دقت و کارایی در مدل‌های زبانی: رویکرد آموزش تقویتی دو فازی برای استدلال مختصر

پیشرفت‌های اخیر در مدل‌های زبانی بزرگ (LLMs)، قابلیت‌های استدلالی آن‌ها را به طور قابل توجهی افزایش داده است، به ویژه از طریق تنظیم دقیق مبتنی بر یادگیری تقویتی (RL). این مدل‌ها که در ابتدا با یادگیری نظارت‌شده برای پیش‌بینی توکن آموزش داده شده‌اند، تحت آموزش پس از یادگیری تقویتی قرار می‌گیرند و مسیرهای استدلالی مختلفی را برای رسیدن به پاسخ‌های صحیح بررسی می‌کنند، درست مانند اینکه یک عامل در یک بازی حرکت می‌کند. این فرآیند منجر به رفتارهای نوظهوری مانند خوداصلاحی می‌شود، که اغلب به آن "لحظه آها" می‌گویند، جایی که مدل‌ها شروع به اصلاح اشتباهات خود بدون آموزش صریح می‌کنند. در حالی که این امر دقت را بهبود می‌بخشد، منجر به پاسخ‌های بسیار طولانی‌تر، افزایش استفاده از توکن، هزینه‌های محاسباتی و تأخیر نیز می‌شود. علی‌رغم این تصور که خروجی‌های طولانی‌تر برابر با استدلال بهتر است، تحقیقات نتایج متفاوتی را نشان می‌دهد - برخی از پیشرفت‌ها مشاهده می‌شود، اما پاسخ‌های بیش از حد طولانی نیز می‌تواند عملکرد را کاهش دهد، که نشان‌دهنده کاهش بازده است.

محققان در حال بررسی راه‌هایی برای ایجاد تعادل بین کیفیت استدلال و کارایی برای رفع این مشکل هستند. روش‌ها شامل استفاده از مدل‌های کوچک‌تر و سریع‌تر، استفاده از مهندسی سریع برای کاهش لفاظی و توسعه تکنیک‌های شکل‌دهی پاداش است که استدلال مختصر و در عین حال مؤثر را تشویق می‌کند. یکی از رویکردهای قابل توجه، تقطیر طولانی به کوتاه است، جایی که مدل‌ها از توضیحات دقیق یاد می‌گیرند و برای تولید پاسخ‌های کوتاه‌تر و در عین حال دقیق آموزش داده می‌شوند. با استفاده از این تکنیک‌ها، مدل‌هایی مانند Kimi عملکرد رقابتی را حتی در برابر مدل‌های بزرگتر مانند GPT-4 نشان داده‌اند در حالی که توکن‌های کمتری مصرف می‌کنند. مطالعات همچنین مفهوم "پیچیدگی توکن" را برجسته می‌کنند و نشان می‌دهند که مشکلات برای حل دقیق به حداقل آستانه توکن نیاز دارند و استراتژی‌های سریع با هدف اختصار اغلب از این نقطه بهینه کوتاهی می‌کنند. به طور کلی، یافته‌ها بر اهمیت توسعه روش‌های استدلالی کارآمدتر بدون به خطر انداختن عملکرد تأکید دارند.

محققان Wand AI این باور را به چالش می‌کشند که پاسخ‌های طولانی‌تر ذاتاً منجر به استدلال بهتر در مدل‌های زبانی بزرگ می‌شوند. آنها از طریق تجزیه و تحلیل نظری و آزمایش‌ها نشان می‌دهند که این لفاظی محصول جانبی بهینه‌سازی RL است تا یک ضرورت برای دقت. جالب اینجاست که پاسخ‌های مختصر اغلب با صحت بالاتر همبستگی دارند و پاسخ‌های صحیح کوتاه‌تر از پاسخ‌های نادرست هستند. آنها یک رویکرد آموزش RL دو فازی را پیشنهاد می‌کنند: فاز اول توانایی استدلال را افزایش می‌دهد، در حالی که فاز دوم با استفاده از یک مجموعه داده کوچک، اختصار را اعمال می‌کند. این روش طول پاسخ را بدون قربانی کردن دقت کاهش می‌دهد و کارایی و عملکرد بهبود یافته را با حداقل هزینه محاسباتی ارائه می‌دهد.

پاسخ‌های طولانی‌تر همیشه منجر به عملکرد بهتر در مدل‌های زبانی نمی‌شوند. آموزش پس از یادگیری تقویتی (RL) تمایل دارد طول پاسخ را کاهش دهد در حالی که دقت را حفظ یا بهبود می‌بخشد، به خصوص در اوایل آموزش. این برخلاف این باور است که زنجیره‌های استدلالی طولانی برای صحت ضروری هستند. این پدیده با "بن‌بست‌ها" مرتبط است، جایی که خروجی‌های بیش از حد طولانی خطر انحراف از مسیر را دارند. تجزیه و تحلیل وظایف زبانی به عنوان فرآیندهای تصمیم‌گیری مارکوف نشان می‌دهد که RL ضرر را به حداقل می‌رساند، نه طول، و خروجی‌های طولانی‌تر تنها زمانی ظاهر می‌شوند که پاداش‌ها به طور مداوم منفی باشند. یک استراتژی RL دو فازی—ابتدا روی مسائل سخت، سپس روی مسائل قابل حل—می‌تواند استدلال را تقویت کند در حالی که در نهایت اختصار و استحکام را ترویج می‌کند.

استراتژی RL دو فازی منجر به دستاوردهای عملکرد قابل توجهی در اندازه‌های مختلف مدل شد. آموزش بر روی سطوح دشواری مختلف نشان داد که مشکلات آسان‌تر به مدل‌ها کمک می‌کند پاسخ‌ها را کوتاه کنند در حالی که دقت را حفظ یا بهبود می‌بخشند. فاز دوم RL با استفاده از تنها هشت مسئله ریاضی، خروجی‌های مختصرتر و قوی‌تری را در سراسر معیارهایی مانند AIME، AMC و MATH-500 تولید کرد، با روندهای مشابهی که در وظایف STEM از MMLU مشاهده شد. حتی حداقل آموزش پس از یادگیری تقویتی، دقت و ثبات را تحت نمونه‌برداری با دمای پایین بهبود بخشید. علاوه بر این، مدل‌های بدون پالایش RL قبلی، مانند Qwen-Math-v2.5، افزایش دقت زیادی را نشان دادند—تا 30٪ از آموزش تنها بر روی چهار مسئله ریاضی.

در نتیجه، این مطالعه یک روش آموزش پس از یادگیری تقویتی دو فازی را ارائه می‌دهد که استدلال و اختصار را در مدل‌های زبانی بهبود می‌بخشد. فاز اول دقت را افزایش می‌دهد، در حالی که فاز دوم بر کوتاه کردن پاسخ‌ها بدون قربانی کردن عملکرد تمرکز دارد. این رویکرد که بر روی مدل‌های R1 اعمال می‌شود، طول پاسخ را بیش از 40٪ کاهش داد در حالی که دقت را حفظ می‌کرد، به خصوص در دماهای پایین. یافته‌ها نشان می‌دهد که پاسخ‌های طولانی‌تر ذاتاً بهتر نیستند و RL هدفمند می‌تواند به استدلال مختصر دست یابد. این مطالعه همچنین نشان می‌دهد که حتی حداقل آموزش RL می‌تواند به طور چشمگیری به مدل‌های غیر استدلالی سود برساند و بر ارزش گنجاندن مسائل نسبتاً قابل حل و تنظیم دقیق پارامترهای PPO تأکید می‌کند.


مقاله را بررسی کنید: مقاله. تمام اعتبار این تحقیق به محققان این پروژه می‌رسد. همچنین، می‌توانید ما را در توییتر دنبال کنید و فراموش نکنید که به ساب‌ردیت 85k+ ما بپیوندید: ML SubReddit.