مدلهای زبانی بزرگ (LLMs) از تکنیکهای یادگیری تقویتی بهرهمند میشوند، که این امکان را فراهم میآورد تا با یادگیری از پاداشها، بهبودهای مکرری ایجاد شود. با این حال، آموزش بهینه این مدلها همچنان چالشبرانگیز است، زیرا آنها اغلب به مجموعه دادههای گسترده و نظارت انسانی برای افزایش تواناییهای خود نیاز دارند. توسعه روشهایی که به LLMها اجازه میدهد به طور خودکار و بدون ورودی اضافی انسانی یا تغییرات معماری در مقیاس بزرگ، خود را بهبود بخشند، به یک تمرکز اصلی در تحقیقات هوش مصنوعی تبدیل شده است.
چالش کلیدی در آموزش LLMها، اطمینان از کارآمدی و ساختارمند بودن فرآیند یادگیری است. هنگامی که مدلها با مشکلاتی فراتر از تواناییهای خود مواجه میشوند، فرآیند آموزش میتواند متوقف شود و منجر به عملکرد ضعیف شود. تکنیکهای سنتی یادگیری تقویتی برای ایجاد مسیرهای یادگیری مؤثر به مجموعه دادههای بهخوبی تنظیمشده یا بازخورد انسانی متکی هستند، اما این رویکرد از نظر منابع پرهزینه است. همچنین، LLMها بدون یک گرادیان دشواری ساختاریافته، برای بهبود سیستماتیک تلاش میکنند، و پر کردن شکاف بین وظایف استدلال پایه و حل مسئله پیچیدهتر را دشوار میکند.
رویکردهای موجود برای آموزش LLMها عمدتاً شامل تنظیم دقیق نظارتشده، یادگیری تقویتی از بازخورد انسانی (RLHF) و یادگیری برنامهریزیشده است. تنظیم دقیق نظارتشده به مجموعهدادههای برچسبگذاریشده دستی نیاز دارد که میتواند منجر به بیشبرازش و تعمیم محدود شود. RLHF لایهای از نظارت انسانی را معرفی میکند، که در آن مدلها بر اساس ارزیابیهای انسانی اصلاح میشوند، اما این روش پرهزینه است و به طور کارآمد مقیاسپذیر نیست. یادگیری برنامهریزیشده، که به تدریج دشواری وظایف را افزایش میدهد، نویدبخش بوده است، اما پیادهسازیهای فعلی همچنان به مجموعه دادههای از پیش تعریفشده متکی هستند، نه اینکه به مدلها اجازه دهند مسیرهای یادگیری خود را تولید کنند. این محدودیتها نیاز به یک چارچوب یادگیری مستقل را برجسته میکند که LLMها را قادر میسازد تا تواناییهای حل مسئله خود را به طور مستقل بهبود بخشند.
محققان Tufa Labs برای غلبه بر این محدودیتها، LADDER (یادگیری از طریق بازگشت مثالهای مبتنی بر دشواری خودکار) را معرفی کردند. این چارچوب LLMها را قادر میسازد تا با تولید بازگشتی و حل نسخههای سادهتر و تدریجی از مسائل پیچیده، خود را بهبود بخشند. برخلاف روشهای قبلی که به مداخله انسانی یا مجموعه دادههای تنظیمشده وابسته بودند، LADDER از قابلیتهای مدل برای ایجاد یک گرادیان دشواری طبیعی استفاده میکند و امکان یادگیری خودکار ساختاریافته را فراهم میکند. تیم تحقیق LADDER را بر روی وظایف انتگرالگیری ریاضی توسعه داده و آزمایش کردند و اثربخشی آن را در بهبود عملکرد مدل نشان دادند. محققان با استفاده از LADDER، یک مدل Llama 3.2 با ۳ میلیارد پارامتر را قادر ساختند تا دقت خود را در مسائل انتگرالگیری کارشناسی از ۱٪ به ۸۲٪ بهبود بخشد، که یک جهش بیسابقه در قابلیتهای استدلال ریاضی است. همچنین، این رویکرد به مدلهای بزرگتر، مانند Qwen2.5 7B Deepseek-R1 Distilled، گسترش یافت و به دقت ۷۳٪ در آزمون مقدماتی انتگرال MIT دست یافت، که بسیار فراتر از مدلهایی مانند GPT-4o (با ۴۲٪) و عملکرد معمولی انسانی در محدوده ۱۵ تا ۳۰ درصد بود.
LADDER از یک روششناسی ساختاریافته پیروی میکند که به LLMها اجازه میدهد تا با شکستن سیستماتیک مسائل پیچیده، یادگیری خود را راهاندازی کنند. این فرآیند شامل سه مولفه اصلی است: تولید واریانت، تأیید راهحل و یادگیری تقویتی. مرحله تولید واریانت تضمین میکند که مدل نسخههای تدریجی آسانتری از یک مسئله معین تولید میکند و یک گرادیان دشواری ساختاریافته را تشکیل میدهد. مرحله تأیید راهحل از روشهای انتگرالگیری عددی برای ارزیابی درستی راهحلهای تولیدشده استفاده میکند و بازخورد فوری را بدون مداخله انسانی ارائه میدهد. در نهایت، مولفه یادگیری تقویتی از بهینهسازی سیاست نسبی گروهی (GRPO) برای آموزش کارآمد مدل استفاده میکند. این پروتکل مدل را قادر میسازد تا با بهرهگیری از راهحلهای تأییدشده، به طور فزایندهای یاد بگیرد و به آن اجازه میدهد تا استراتژیهای حل مسئله خود را به طور سیستماتیک اصلاح کند. محققان این رویکرد را با یادگیری تقویتی در زمان آزمایش (TTRL) گسترش دادند، که به طور پویا واریانتهای مسئله را در طول استنتاج تولید میکند و یادگیری تقویتی را برای اصلاح راهحلها در زمان واقعی اعمال میکند. هنگامی که TTRL در آزمون مقدماتی انتگرال MIT اعمال شد، دقت مدل را از ۷۳٪ به ۹۰٪ افزایش داد و از مدل o1 OpenAI پیشی گرفت.
هنگامی که روی مجموعه دادهای متشکل از ۱۱۰ مسئله انتگرالگیری در سطح کارشناسی آزمایش شد، یک مدل Llama 3.2 3B که با LADDER آموزش دیده بود، به دقت ۸۲٪ دست یافت، در حالی که دقت با استفاده از نمونهبرداری pass@10، ۲٪ بود. این رویکرد همچنین مقیاسپذیری را نشان داد، زیرا افزایش تعداد واریانتهای تولیدشده منجر به بهبود مستمر عملکرد شد. در مقابل، یادگیری تقویتی بدون واریانتها نتوانست به دستاوردهای معناداری دست یابد، که اهمیت تجزیه ساختاریافته مسئله را تقویت میکند. محققان مشاهده کردند که مدلهای آموزشدیده با LADDER میتوانند انتگرالهایی را حل کنند که به تکنیکهای پیشرفتهای نیاز دارند که قبلاً خارج از دسترس بودند. با استفاده از این روش در آزمون مقدماتی انتگرال MIT، یک مدل Deepseek-R1 Qwen2.5 7B که با LADDER آموزش دیده بود، از مدلهای بزرگتری که تحت آموزش بازگشتی قرار نگرفته بودند، عملکرد بهتری داشت و اثربخشی خودبهبودی ساختاریافته در استدلال ریاضی را به نمایش گذاشت.
نکات کلیدی تحقیق در مورد LADDER عبارتند از:
- LLMها را قادر میسازد تا با تولید بازگشتی و حل نسخههای سادهتر مسائل پیچیده، خود را بهبود بخشند.
- مدل Llama 3.2 3B در وظایف انتگرالگیری کارشناسی از ۱٪ به ۸۲٪ بهبود یافت، که اثربخشی یادگیری خودکار ساختاریافته را نشان میدهد.
- Qwen2.5 7B Deepseek-R1 Distilled به دقت ۷۳٪ دست یافت، که از GPT-4o (۴۲٪) بهتر عمل کرد و از عملکرد انسانی (۱۵-۳۰٪) فراتر رفت.
- دقت را از ۷۳٪ به ۹۰٪ افزایش داد و از مدل o1 OpenAI پیشی گرفت.
- LADDER به مجموعه دادههای خارجی یا مداخله انسانی نیاز ندارد، و آن را به یک راهحل مقرونبهصرفه و مقیاسپذیر برای آموزش LLM تبدیل میکند.
- مدلهای آموزشدیده با LADDER در مقایسه با یادگیری تقویتی بدون گرادیانهای دشواری ساختاریافته، قابلیتهای حل مسئله برتری را نشان دادند.
- این چارچوب راهی ساختاریافته برای مدلهای هوش مصنوعی فراهم میکند تا مهارتهای استدلال خود را بدون نظارت خارجی اصلاح کنند.
- این روش میتواند به برنامهنویسی رقابتی، اثبات قضیه و حل مسئله مبتنی بر عامل گسترش یابد.
می توانید مقاله پژوهشی را بررسی کنید. تمام اعتبار این تحقیق متعلق به محققان این پروژه است.