فراتر از RAG: SEARCH-R1 موتورهای جستجو را مستقیماً در مدل‌های استدلال ادغام می‌کند

مدل‌های زبانی بزرگ (LLM) پیشرفت‌های چشمگیری در استفاده از قابلیت‌های استدلال داشته‌اند. با این حال، توانایی آن‌ها در ارجاع صحیح و استفاده از داده‌های خارجی - اطلاعاتی که روی آن‌ها آموزش ندیده‌اند - همراه با استدلال، تا حد زیادی عقب مانده است.

این موضوع به ویژه هنگام استفاده از LLM در سناریوهای پویا و اطلاعات فشرده که نیاز به داده‌های به‌روز از موتورهای جستجو دارند، مشکل‌ساز است.

اما یک پیشرفت حاصل شده است: SEARCH-R1، تکنیکی که در یک مقاله توسط محققان دانشگاه ایلینوی در اوربانا-شمپین و دانشگاه ماساچوست امهرست معرفی شده است، LLMها را آموزش می‌دهد تا پرس و جوهای جستجو ایجاد کرده و بازیابی موتور جستجو را به طور یکپارچه در استدلال خود ادغام کنند.

با توجه به اینکه شرکت‌ها به دنبال راه‌هایی برای ادغام این مدل‌های جدید در برنامه‌های خود هستند، تکنیک‌هایی مانند SEARCH-R1 نوید باز کردن قابلیت‌های استدلال جدیدی را می‌دهند که به منابع داده خارجی متکی هستند.

چالش ادغام جستجو با LLMها

موتورهای جستجو برای ارائه دانش خارجی و به روز به برنامه‌های LLM بسیار مهم هستند. دو روش اصلی برای ادغام موتورهای جستجو با LLMها، تولید تقویت‌شده با بازیابی (RAG) و استفاده از ابزار است که از طریق مهندسی پرامپت یا تنظیم دقیق مدل پیاده‌سازی می‌شود.

با این حال، هر دو روش محدودیت‌هایی دارند که آن‌ها را برای مدل‌های استدلال نامناسب می‌کند. RAG اغلب با نادرستی‌های بازیابی دست و پنجه نرم می‌کند و فاقد توانایی انجام بازیابی چند نوبتی و چند پرس و جو است که برای وظایف استدلال ضروری است.

استفاده از ابزار مبتنی بر پرامپت اغلب با تعمیم مشکل دارد، در حالی که رویکردهای مبتنی بر آموزش نیاز به مجموعه‌های داده حاشیه‌نویسی شده گسترده از تعاملات جستجو و استدلال دارند که تولید آن‌ها در مقیاس دشوار است.

(در آزمایش‌های خود با مدل‌های استدلال، دریافتیم که بازیابی اطلاعات همچنان یکی از چالش‌های اصلی است.)

نمونه‌ای از استدلال LLM با SEARCH-R1
نمونه‌ای از استدلال LLM با SEARCH-R1 (منبع: arXiv)

SEARCH-R1

SEARCH-R1 به LLMها امکان می‌دهد تا با موتورهای جستجو در طول فرآیند استدلال خود تعامل داشته باشند، برخلاف اینکه یک مرحله بازیابی جداگانه داشته باشند.

SEARCH-R1 موتور جستجو را به عنوان بخشی از محیط LLM تعریف می‌کند و به مدل امکان می‌دهد تا تولید توکن خود را با نتایج موتور جستجو به طور یکپارچه ادغام کند.

محققان SEARCH-R1 را برای پشتیبانی از استدلال و جستجوی تکراری طراحی کرده‌اند. این مدل آموزش داده شده است تا مجموعه‌های جداگانه‌ای از توکن‌ها را برای بخش‌های تفکر، جستجو، اطلاعات و پاسخ تولید کند. این بدان معناست که در طول فرآیند استدلال خود (که با تگ‌های <think></think> مشخص می‌شود)، اگر مدل تشخیص دهد که به اطلاعات خارجی نیاز دارد، یک دنباله <search></search> تولید می‌کند که حاوی پرس و جوی جستجو است. سپس پرس و جو به یک موتور جستجو منتقل می‌شود و نتایج در یک بخش <information></information> وارد پنجره زمینه می‌شود. سپس مدل به استدلال با زمینه اضافه شده ادامه می‌دهد و هنگام آماده شدن، نتایج را در یک بخش <answer></answer> تولید می‌کند.

این ساختار به مدل اجازه می‌دهد تا موتور جستجو را چندین بار فراخوانی کند، زیرا در مورد مشکل استدلال می‌کند و اطلاعات جدید به دست می‌آورد (به مثال زیر مراجعه کنید).

یادگیری تقویتی

آموزش LLMها برای درهم آمیختن پرس و جوهای جستجو با زنجیره استدلال خود چالش برانگیز است. برای ساده کردن این فرآیند، محققان SEARCH-R1 را طراحی کردند تا مدل را از طریق یادگیری تقویتی (RL) خالص آموزش دهند، جایی که مدل بدون راهنمایی از داده‌های تولید شده توسط انسان، به بررسی استفاده از ابزارهای استدلال و جستجو می‌پردازد.

SEARCH-R1 از یک "مدل پاداش مبتنی بر نتیجه" استفاده می‌کند، که در آن مدل فقط بر اساس صحت پاسخ نهایی ارزیابی می‌شود. این امر نیاز به ایجاد مدل‌های پاداش پیچیده‌ای را که فرآیند استدلال مدل را تأیید می‌کنند، از بین می‌برد.

این همان روشی است که در DeepSeek-R1-Zero استفاده شده است، جایی که به مدل یک وظیفه داده شد و فقط بر اساس نتیجه قضاوت شد. استفاده از RL خالص نیاز به ایجاد مجموعه‌های داده بزرگی از نمونه‌های حاشیه‌نویسی شده دستی (تنظیم دقیق نظارت شده) را از بین می‌برد.

محققان در مقاله خود می‌نویسند: «SEARCH-R1 را می‌توان به عنوان گسترشی از DeepSeek-R1 در نظر گرفت، که در درجه اول بر استدلال پارامتری با معرفی آموزش RL تقویت‌شده با جستجو برای تصمیم‌گیری مبتنی بر بازیابی پیشرفته تمرکز دارد.»

نتایج عملکرد SEARCH-R1

SEARCH-R1 در عمل

محققان SEARCH-R1 را با تنظیم دقیق نسخه‌های پایه و آموزش داده شده Qwen-2.5 و Llama-3.2 و ارزیابی آن‌ها بر روی هفت معیار سنجش که شامل طیف متنوعی از وظایف استدلال است که نیاز به جستجوی تک نوبتی و چند مرحله‌ای دارند، آزمایش کردند. آن‌ها SEARCH-R1 را در برابر خطوط پایه مختلف مقایسه کردند: استنباط مستقیم با استدلال زنجیره تفکر (CoT)، استنباط با RAG و تنظیم دقیق نظارت شده برای استفاده از ابزار.

SEARCH-R1 به طور مداوم عملکرد بهتری نسبت به روش‌های خط پایه با حاشیه قابل توجهی دارد. همچنین عملکرد بهتری نسبت به مدل‌های استدلال آموزش داده شده بر روی RL اما بدون بازیابی جستجو دارد. محققان می‌نویسند: «این با انتظارات مطابقت دارد، زیرا گنجاندن جستجو در استدلال LLM دسترسی به دانش خارجی مرتبط را فراهم می‌کند و عملکرد کلی را بهبود می‌بخشد.»

SEARCH-R1 همچنین برای خانواده‌های مختلف مدل و هر دو نوع پایه و تنظیم شده با آموزش مؤثر است، که نشان می‌دهد RL با پاداش‌های مبتنی بر نتیجه می‌تواند فراتر از سناریوهای استدلال خالص مفید باشد. محققان کد SEARCH-R1 را در GitHub منتشر کرده‌اند.

توانایی SEARCH-R1 در تولید مستقل پرس و جوهای جستجو و ادغام اطلاعات بی‌درنگ در استدلال می‌تواند پیامدهای قابل توجهی برای برنامه‌های سازمانی داشته باشد. این می‌تواند دقت و قابلیت اطمینان سیستم‌های مبتنی بر LLM را در زمینه‌هایی مانند پشتیبانی مشتری، مدیریت دانش و تجزیه و تحلیل داده‌ها افزایش دهد. با فعال کردن LLMها برای انطباق پویا با اطلاعات در حال تغییر، SEARCH-R1 می‌تواند به شرکت‌ها کمک کند تا راه حل‌های هوش مصنوعی هوشمندتر و پاسخگوتر بسازند. این قابلیت می‌تواند برای برنامه‌هایی که نیاز به دسترسی به داده‌های دائماً در حال تغییر دارند و نیاز به چندین مرحله برای یافتن پاسخ دارند، بسیار مفید باشد.

همچنین نشان می‌دهد که ما هنوز پتانسیل کامل پارادایم جدید یادگیری تقویتی را که از زمان انتشار DeepSeek-R1 ظهور کرده است، کشف نکرده‌ایم.