نمودار چارچوب LADDER
نمودار چارچوب LADDER

معرفی LADDER توسط Tufa Labs: چارچوب یادگیری بازگشتی برای خودبهبودی مدل‌های زبانی بزرگ بدون دخالت انسان

نمودار چارچوب LADDER
نمودار چارچوب LADDER

مدل‌های زبانی بزرگ (LLMs) از تکنیک‌های یادگیری تقویتی بهره‌مند می‌شوند، که این امکان را فراهم می‌آورد تا با یادگیری از پاداش‌ها، بهبودهای مکرری ایجاد شود. با این حال، آموزش بهینه این مدل‌ها همچنان چالش‌برانگیز است، زیرا آن‌ها اغلب به مجموعه داده‌های گسترده و نظارت انسانی برای افزایش توانایی‌های خود نیاز دارند. توسعه روش‌هایی که به LLMها اجازه می‌دهد به طور خودکار و بدون ورودی اضافی انسانی یا تغییرات معماری در مقیاس بزرگ، خود را بهبود بخشند، به یک تمرکز اصلی در تحقیقات هوش مصنوعی تبدیل شده است.

چالش کلیدی در آموزش LLMها، اطمینان از کارآمدی و ساختارمند بودن فرآیند یادگیری است. هنگامی که مدل‌ها با مشکلاتی فراتر از توانایی‌های خود مواجه می‌شوند، فرآیند آموزش می‌تواند متوقف شود و منجر به عملکرد ضعیف شود. تکنیک‌های سنتی یادگیری تقویتی برای ایجاد مسیرهای یادگیری مؤثر به مجموعه داده‌های به‌خوبی تنظیم‌شده یا بازخورد انسانی متکی هستند، اما این رویکرد از نظر منابع پرهزینه است. همچنین، LLMها بدون یک گرادیان دشواری ساختاریافته، برای بهبود سیستماتیک تلاش می‌کنند، و پر کردن شکاف بین وظایف استدلال پایه و حل مسئله پیچیده‌تر را دشوار می‌کند.

رویکردهای موجود برای آموزش LLMها عمدتاً شامل تنظیم دقیق نظارت‌شده، یادگیری تقویتی از بازخورد انسانی (RLHF) و یادگیری برنامه‌ریزی‌شده است. تنظیم دقیق نظارت‌شده به مجموعه‌داده‌های برچسب‌گذاری‌شده دستی نیاز دارد که می‌تواند منجر به بیش‌برازش و تعمیم محدود شود. RLHF لایه‌ای از نظارت انسانی را معرفی می‌کند، که در آن مدل‌ها بر اساس ارزیابی‌های انسانی اصلاح می‌شوند، اما این روش پرهزینه است و به طور کارآمد مقیاس‌پذیر نیست. یادگیری برنامه‌ریزی‌شده، که به تدریج دشواری وظایف را افزایش می‌دهد، نویدبخش بوده است، اما پیاده‌سازی‌های فعلی همچنان به مجموعه داده‌های از پیش تعریف‌شده متکی هستند، نه اینکه به مدل‌ها اجازه دهند مسیرهای یادگیری خود را تولید کنند. این محدودیت‌ها نیاز به یک چارچوب یادگیری مستقل را برجسته می‌کند که LLMها را قادر می‌سازد تا توانایی‌های حل مسئله خود را به طور مستقل بهبود بخشند.

محققان Tufa Labs برای غلبه بر این محدودیت‌ها، LADDER (یادگیری از طریق بازگشت مثال‌های مبتنی بر دشواری خودکار) را معرفی کردند. این چارچوب LLMها را قادر می‌سازد تا با تولید بازگشتی و حل نسخه‌های ساده‌تر و تدریجی از مسائل پیچیده، خود را بهبود بخشند. برخلاف روش‌های قبلی که به مداخله انسانی یا مجموعه داده‌های تنظیم‌شده وابسته بودند، LADDER از قابلیت‌های مدل برای ایجاد یک گرادیان دشواری طبیعی استفاده می‌کند و امکان یادگیری خودکار ساختاریافته را فراهم می‌کند. تیم تحقیق LADDER را بر روی وظایف انتگرال‌گیری ریاضی توسعه داده و آزمایش کردند و اثربخشی آن را در بهبود عملکرد مدل نشان دادند. محققان با استفاده از LADDER، یک مدل Llama 3.2 با ۳ میلیارد پارامتر را قادر ساختند تا دقت خود را در مسائل انتگرال‌گیری کارشناسی از ۱٪ به ۸۲٪ بهبود بخشد، که یک جهش بی‌سابقه در قابلیت‌های استدلال ریاضی است. همچنین، این رویکرد به مدل‌های بزرگ‌تر، مانند Qwen2.5 7B Deepseek-R1 Distilled، گسترش یافت و به دقت ۷۳٪ در آزمون مقدماتی انتگرال MIT دست یافت، که بسیار فراتر از مدل‌هایی مانند GPT-4o (با ۴۲٪) و عملکرد معمولی انسانی در محدوده ۱۵ تا ۳۰ درصد بود.

LADDER از یک روش‌شناسی ساختاریافته پیروی می‌کند که به LLMها اجازه می‌دهد تا با شکستن سیستماتیک مسائل پیچیده، یادگیری خود را راه‌اندازی کنند. این فرآیند شامل سه مولفه اصلی است: تولید واریانت، تأیید راه‌حل و یادگیری تقویتی. مرحله تولید واریانت تضمین می‌کند که مدل نسخه‌های تدریجی آسان‌تری از یک مسئله معین تولید می‌کند و یک گرادیان دشواری ساختاریافته را تشکیل می‌دهد. مرحله تأیید راه‌حل از روش‌های انتگرال‌گیری عددی برای ارزیابی درستی راه‌حل‌های تولیدشده استفاده می‌کند و بازخورد فوری را بدون مداخله انسانی ارائه می‌دهد. در نهایت، مولفه یادگیری تقویتی از بهینه‌سازی سیاست نسبی گروهی (GRPO) برای آموزش کارآمد مدل استفاده می‌کند. این پروتکل مدل را قادر می‌سازد تا با بهره‌گیری از راه‌حل‌های تأییدشده، به طور فزاینده‌ای یاد بگیرد و به آن اجازه می‌دهد تا استراتژی‌های حل مسئله خود را به طور سیستماتیک اصلاح کند. محققان این رویکرد را با یادگیری تقویتی در زمان آزمایش (TTRL) گسترش دادند، که به طور پویا واریانت‌های مسئله را در طول استنتاج تولید می‌کند و یادگیری تقویتی را برای اصلاح راه‌حل‌ها در زمان واقعی اعمال می‌کند. هنگامی که TTRL در آزمون مقدماتی انتگرال MIT اعمال شد، دقت مدل را از ۷۳٪ به ۹۰٪ افزایش داد و از مدل o1 OpenAI پیشی گرفت.

عملکرد LADDER در مسائل انتگرال‌گیری
عملکرد LADDER در مسائل انتگرال‌گیری

هنگامی که روی مجموعه داده‌ای متشکل از ۱۱۰ مسئله انتگرال‌گیری در سطح کارشناسی آزمایش شد، یک مدل Llama 3.2 3B که با LADDER آموزش دیده بود، به دقت ۸۲٪ دست یافت، در حالی که دقت با استفاده از نمونه‌برداری pass@10، ۲٪ بود. این رویکرد همچنین مقیاس‌پذیری را نشان داد، زیرا افزایش تعداد واریانت‌های تولیدشده منجر به بهبود مستمر عملکرد شد. در مقابل، یادگیری تقویتی بدون واریانت‌ها نتوانست به دستاوردهای معناداری دست یابد، که اهمیت تجزیه ساختاریافته مسئله را تقویت می‌کند. محققان مشاهده کردند که مدل‌های آموزش‌دیده با LADDER می‌توانند انتگرال‌هایی را حل کنند که به تکنیک‌های پیشرفته‌ای نیاز دارند که قبلاً خارج از دسترس بودند. با استفاده از این روش در آزمون مقدماتی انتگرال MIT، یک مدل Deepseek-R1 Qwen2.5 7B که با LADDER آموزش دیده بود، از مدل‌های بزرگ‌تری که تحت آموزش بازگشتی قرار نگرفته بودند، عملکرد بهتری داشت و اثربخشی خودبهبودی ساختاریافته در استدلال ریاضی را به نمایش گذاشت.

نتایج LADDER در آزمون انتگرال MIT
نتایج LADDER در آزمون انتگرال MIT

نکات کلیدی تحقیق در مورد LADDER عبارتند از:

  1. LLMها را قادر می‌سازد تا با تولید بازگشتی و حل نسخه‌های ساده‌تر مسائل پیچیده، خود را بهبود بخشند.
  2. مدل Llama 3.2 3B در وظایف انتگرال‌گیری کارشناسی از ۱٪ به ۸۲٪ بهبود یافت، که اثربخشی یادگیری خودکار ساختاریافته را نشان می‌دهد.
  3. Qwen2.5 7B Deepseek-R1 Distilled به دقت ۷۳٪ دست یافت، که از GPT-4o (۴۲٪) بهتر عمل کرد و از عملکرد انسانی (۱۵-۳۰٪) فراتر رفت.
  4. دقت را از ۷۳٪ به ۹۰٪ افزایش داد و از مدل o1 OpenAI پیشی گرفت.
  5. LADDER به مجموعه داده‌های خارجی یا مداخله انسانی نیاز ندارد، و آن را به یک راه‌حل مقرون‌به‌صرفه و مقیاس‌پذیر برای آموزش LLM تبدیل می‌کند.
  6. مدل‌های آموزش‌دیده با LADDER در مقایسه با یادگیری تقویتی بدون گرادیان‌های دشواری ساختاریافته، قابلیت‌های حل مسئله برتری را نشان دادند.
  7. این چارچوب راهی ساختاریافته برای مدل‌های هوش مصنوعی فراهم می‌کند تا مهارت‌های استدلال خود را بدون نظارت خارجی اصلاح کنند.
  8. این روش می‌تواند به برنامه‌نویسی رقابتی، اثبات قضیه و حل مسئله مبتنی بر عامل گسترش یابد.

می توانید مقاله پژوهشی را بررسی کنید. تمام اعتبار این تحقیق متعلق به محققان این پروژه است.