مدلهای زبانی بزرگ (LLM) پیشرفتهای چشمگیری در استفاده از قابلیتهای استدلال داشتهاند. با این حال، توانایی آنها در ارجاع صحیح و استفاده از دادههای خارجی - اطلاعاتی که روی آنها آموزش ندیدهاند - همراه با استدلال، تا حد زیادی عقب مانده است.
این موضوع به ویژه هنگام استفاده از LLM در سناریوهای پویا و اطلاعات فشرده که نیاز به دادههای بهروز از موتورهای جستجو دارند، مشکلساز است.
اما یک پیشرفت حاصل شده است: SEARCH-R1، تکنیکی که در یک مقاله توسط محققان دانشگاه ایلینوی در اوربانا-شمپین و دانشگاه ماساچوست امهرست معرفی شده است، LLMها را آموزش میدهد تا پرس و جوهای جستجو ایجاد کرده و بازیابی موتور جستجو را به طور یکپارچه در استدلال خود ادغام کنند.
با توجه به اینکه شرکتها به دنبال راههایی برای ادغام این مدلهای جدید در برنامههای خود هستند، تکنیکهایی مانند SEARCH-R1 نوید باز کردن قابلیتهای استدلال جدیدی را میدهند که به منابع داده خارجی متکی هستند.
چالش ادغام جستجو با LLMها
موتورهای جستجو برای ارائه دانش خارجی و به روز به برنامههای LLM بسیار مهم هستند. دو روش اصلی برای ادغام موتورهای جستجو با LLMها، تولید تقویتشده با بازیابی (RAG) و استفاده از ابزار است که از طریق مهندسی پرامپت یا تنظیم دقیق مدل پیادهسازی میشود.
با این حال، هر دو روش محدودیتهایی دارند که آنها را برای مدلهای استدلال نامناسب میکند. RAG اغلب با نادرستیهای بازیابی دست و پنجه نرم میکند و فاقد توانایی انجام بازیابی چند نوبتی و چند پرس و جو است که برای وظایف استدلال ضروری است.
استفاده از ابزار مبتنی بر پرامپت اغلب با تعمیم مشکل دارد، در حالی که رویکردهای مبتنی بر آموزش نیاز به مجموعههای داده حاشیهنویسی شده گسترده از تعاملات جستجو و استدلال دارند که تولید آنها در مقیاس دشوار است.
(در آزمایشهای خود با مدلهای استدلال، دریافتیم که بازیابی اطلاعات همچنان یکی از چالشهای اصلی است.)
SEARCH-R1
SEARCH-R1 به LLMها امکان میدهد تا با موتورهای جستجو در طول فرآیند استدلال خود تعامل داشته باشند، برخلاف اینکه یک مرحله بازیابی جداگانه داشته باشند.
SEARCH-R1 موتور جستجو را به عنوان بخشی از محیط LLM تعریف میکند و به مدل امکان میدهد تا تولید توکن خود را با نتایج موتور جستجو به طور یکپارچه ادغام کند.
محققان SEARCH-R1 را برای پشتیبانی از استدلال و جستجوی تکراری طراحی کردهاند. این مدل آموزش داده شده است تا مجموعههای جداگانهای از توکنها را برای بخشهای تفکر، جستجو، اطلاعات و پاسخ تولید کند. این بدان معناست که در طول فرآیند استدلال خود (که با تگهای <think></think> مشخص میشود)، اگر مدل تشخیص دهد که به اطلاعات خارجی نیاز دارد، یک دنباله <search></search> تولید میکند که حاوی پرس و جوی جستجو است. سپس پرس و جو به یک موتور جستجو منتقل میشود و نتایج در یک بخش <information></information> وارد پنجره زمینه میشود. سپس مدل به استدلال با زمینه اضافه شده ادامه میدهد و هنگام آماده شدن، نتایج را در یک بخش <answer></answer> تولید میکند.
این ساختار به مدل اجازه میدهد تا موتور جستجو را چندین بار فراخوانی کند، زیرا در مورد مشکل استدلال میکند و اطلاعات جدید به دست میآورد (به مثال زیر مراجعه کنید).
یادگیری تقویتی
آموزش LLMها برای درهم آمیختن پرس و جوهای جستجو با زنجیره استدلال خود چالش برانگیز است. برای ساده کردن این فرآیند، محققان SEARCH-R1 را طراحی کردند تا مدل را از طریق یادگیری تقویتی (RL) خالص آموزش دهند، جایی که مدل بدون راهنمایی از دادههای تولید شده توسط انسان، به بررسی استفاده از ابزارهای استدلال و جستجو میپردازد.
SEARCH-R1 از یک "مدل پاداش مبتنی بر نتیجه" استفاده میکند، که در آن مدل فقط بر اساس صحت پاسخ نهایی ارزیابی میشود. این امر نیاز به ایجاد مدلهای پاداش پیچیدهای را که فرآیند استدلال مدل را تأیید میکنند، از بین میبرد.
این همان روشی است که در DeepSeek-R1-Zero استفاده شده است، جایی که به مدل یک وظیفه داده شد و فقط بر اساس نتیجه قضاوت شد. استفاده از RL خالص نیاز به ایجاد مجموعههای داده بزرگی از نمونههای حاشیهنویسی شده دستی (تنظیم دقیق نظارت شده) را از بین میبرد.
محققان در مقاله خود مینویسند: «SEARCH-R1 را میتوان به عنوان گسترشی از DeepSeek-R1 در نظر گرفت، که در درجه اول بر استدلال پارامتری با معرفی آموزش RL تقویتشده با جستجو برای تصمیمگیری مبتنی بر بازیابی پیشرفته تمرکز دارد.»
SEARCH-R1 در عمل
محققان SEARCH-R1 را با تنظیم دقیق نسخههای پایه و آموزش داده شده Qwen-2.5 و Llama-3.2 و ارزیابی آنها بر روی هفت معیار سنجش که شامل طیف متنوعی از وظایف استدلال است که نیاز به جستجوی تک نوبتی و چند مرحلهای دارند، آزمایش کردند. آنها SEARCH-R1 را در برابر خطوط پایه مختلف مقایسه کردند: استنباط مستقیم با استدلال زنجیره تفکر (CoT)، استنباط با RAG و تنظیم دقیق نظارت شده برای استفاده از ابزار.
SEARCH-R1 به طور مداوم عملکرد بهتری نسبت به روشهای خط پایه با حاشیه قابل توجهی دارد. همچنین عملکرد بهتری نسبت به مدلهای استدلال آموزش داده شده بر روی RL اما بدون بازیابی جستجو دارد. محققان مینویسند: «این با انتظارات مطابقت دارد، زیرا گنجاندن جستجو در استدلال LLM دسترسی به دانش خارجی مرتبط را فراهم میکند و عملکرد کلی را بهبود میبخشد.»
SEARCH-R1 همچنین برای خانوادههای مختلف مدل و هر دو نوع پایه و تنظیم شده با آموزش مؤثر است، که نشان میدهد RL با پاداشهای مبتنی بر نتیجه میتواند فراتر از سناریوهای استدلال خالص مفید باشد. محققان کد SEARCH-R1 را در GitHub منتشر کردهاند.
توانایی SEARCH-R1 در تولید مستقل پرس و جوهای جستجو و ادغام اطلاعات بیدرنگ در استدلال میتواند پیامدهای قابل توجهی برای برنامههای سازمانی داشته باشد. این میتواند دقت و قابلیت اطمینان سیستمهای مبتنی بر LLM را در زمینههایی مانند پشتیبانی مشتری، مدیریت دانش و تجزیه و تحلیل دادهها افزایش دهد. با فعال کردن LLMها برای انطباق پویا با اطلاعات در حال تغییر، SEARCH-R1 میتواند به شرکتها کمک کند تا راه حلهای هوش مصنوعی هوشمندتر و پاسخگوتر بسازند. این قابلیت میتواند برای برنامههایی که نیاز به دسترسی به دادههای دائماً در حال تغییر دارند و نیاز به چندین مرحله برای یافتن پاسخ دارند، بسیار مفید باشد.
همچنین نشان میدهد که ما هنوز پتانسیل کامل پارادایم جدید یادگیری تقویتی را که از زمان انتشار DeepSeek-R1 ظهور کرده است، کشف نکردهایم.