مدل‌های زبانی بزرگ اکنون می‌توانند دوباره تلاش کردن را بیاموزند: معرفی ReZero توسط محققان Menlo

حوزه مدل‌های زبانی بزرگ (LLM) به سرعت تکامل یافته است تا شامل ابزارهایی شود که این مدل‌ها را قادر می‌سازد تا دانش خارجی را در فرآیندهای استدلال خود ادغام کنند. پیشرفت چشمگیری در این راستا، تولید افزوده شده با بازیابی (RAG) است که به مدل‌ها اجازه می‌دهد تا پایگاه‌های داده و موتورهای جستجو را برای اطلاعات به‌روز یا تخصصی که در طول آموزش جاسازی نشده‌اند، پرس و جو کنند. RAG با ادغام تولید LLM با بازیابی اطلاعات در زمان واقعی، عملکرد را در سناریوهای دانش فشرده افزایش می‌دهد. با این حال، از آنجایی که وظایف پیچیده‌تر می‌شوند، به ویژه آنهایی که به استدلال چند مرحله‌ای یا دانش بسیار خاص نیاز دارند، اطمینان از اینکه LLMها به طور هوشمندانه با این سیستم‌های بازیابی تعامل دارند، حیاتی می‌شود. بهبود این فرآیند تعامل برای توانمندسازی LLMها برای پاسخگویی موثر به نیازهای اطلاعاتی مبهم، در حال تحول یا پیچیده بسیار مهم است.

چالشی که در سیستم‌های مبتنی بر LLM که به سازوکارهای بازیابی متکی هستند وجود دارد، حساسیت به کیفیت پرس و جو است. هنگامی که یک LLM یک پرس و جو جستجوی اولیه تولید می‌کند که نمی‌تواند اطلاعات مفیدی را بازیابی کند، سیستم اغلب فاقد یک استراتژی قوی برای جبران این شکست است. این امر منجر به موقعیت‌هایی می‌شود که در آن مدل یا پاسخی را توهم می‌کند یا به طور نابهنگام خاتمه می‌یابد و نتایج نادرستی را به دست می‌دهد. روش‌های فعلی عمدتاً فرض می‌کنند که یک پرس و جو خوب کافی خواهد بود و سناریویی را نادیده می‌گیرند که در آن پافشاری و تلاش‌های مجدد برای کشف اطلاعات صحیح ضروری است. این محدودیت، استحکام LLMها را در وظایف پیچیده‌ای که درک به طور فزاینده از طریق آزمون، خطا و پالایش بهبود می‌یابد، کاهش می‌دهد.

https://www.marktechpost.com/2025/04/18/llms-can-now-learn-to-try-again-researchers-from-menlo-introduce-rezero-a-reinforcement-learning-framework-that-rewards-query-retrying-to-improve-search-based-reasoning-in-rag-systems/